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本 书 将 教 你 如 何 使 用 Hadoop 在 深度 神经 网 络 中 部 署 大 型 数据 集 ， 以 实现 最 佳 性 能 。 


从 了 解 什么 是 深度 学 习 以 及 与 深度 神经 网 络 相 关 的 各 种 模型 开始 , 本 书 将 向 你 展示 如 何 配置 
用 于 深度 学 习 的 Hadoop 环境 。 

















本 书 内 容 


第 1 章 ,， 深度 学 习 介绍 。 深 度 学 习 在 过 去 十 年 间 已 深入 人 心 ， 由 于 功能 增强 了 ， 其 发 展 速度 
甚至 超过 了 机 顺 学 习 。 这 一 章 首 先 介绍 了 人 工 智能 的 现实 应 用 、 相 关 的 挑战 ， 以 及 深度 学 习 为 何 
能 够 有 效 地 解决 这 些 问 题 。 通 过 解决 一 些 主要 的 机 器 学 习 问 题 ( 如 维度 诅咒 、 梯 度 消 失 等 )， 深 
入 阐释 了 深度 学 习 。 为 了 后 续 各 章 内 容 的 学 习 , 后 半 部 分 讨论 了 各 种 类 型 的 深度 学 习 网 络 。 该 音 
主要 适用 于 想 了 解 深度 学 习 的 基础 知识 ， 但 不 需要 深入 了 解 各 个 深度 神经 网 络 细节 的 读者 。 


第 2 章 ， 大 规模 数据 的 分 布 式 深度 学 习 。 大 数据 和 深度 学 习 无 疑 是 近 段 时 间 最 热门 的 两 大 技 
术 趋 势 。 两 者 关系 密切 ， 过 去 几 年 中 都 呈现 出 了 巨大 的 发 展 。 这 一 章 首先 介绍 了 如 何 将 深度 学 习 
技术 用 于 大 量 非 结构 化 的 数据 ， 并 从 中 提取 宝贵 的 隐藏 信息 。Google 、Facebook、 苹 果 等 知名 技 
术 公 司 正在 深度 学 习 项 目 中 使 用 这 种 大 规模 数据 ， 以 更 智能 的 方式 训练 一 些 优秀 的 深度 神经 网 
络 。 然 而 ,深度 神经 网 络 在 处 理 大 数据 时 遇 到 了 一 些 挑 战 。 这 一 章 将 详细 说 明 这 些 挑战 。 后 半 部 
分 介绍 了 Hadoop, 并 探讨 了 如 何 使 用 Hadoop 的 YARN 及 其 迭代 Map-Reduce 来 实现 深度 学 习 模 
型 。 接 着 介绍 了 深度 学 习 中 一 个 流行 的 开源 分 布 式 框 架 : Deeplearning4j， 并 解释 了 其 各 种 组 件 。 


第 3 章 ， 卷 积 神经 网 络 。 卷 积 神经 网 络 是 一 种 深度 神经 网 络 , 广泛 应 用 于 顶尖 技术 产业 的 各 
种 深度 学 习 项 目 中 。 卷 积 神经 网 络 在 图 像 识别 、 视 频 识别 、 自 然 语 言 处 理 等 各 个 领域 都 有 广泛 的 
应 用 。 卷 积 是 一 种 特殊 的 数学 运算 ， 是 卷 积 神经 网 络 的 重要 组 成 部 分 。 为 了 学 习 卷 积 神经 网 络 ， 
这 一 章 首 先 用 现实 生活 中 的 一 个 示例 说 明了 卷 积 的 概念 。 接 下 来 , 通过 对 网 络 的 每 个 组 成 部 分 进 
行 说 明 , 深入 阐释 了 卷 积 神经 网 络 。 为 了 提高 网 络 性 能 ， 卷 积 神经 网 络 具有 三 个 最 重要 的 参数 : 
稀 玻 连接 、 参 数 共 享 和 平移 不 变性 。 这 一 章 对 这 些 概念 进行 了 解释 ， 以 便 更 好 地 理解 卷 积 神经 网 
络 。 卷 积 神经 网 络 还 有 一 些 关 键 的 超 参 数 ， 这 些 超 参数 有 助 于 确定 网 络 输出 图 像 的 维度 。 这 一 章 
还 详细 讨论 了 这 些 超 参数 之 间 的 数学 关系 。 后 半 部 分 重点 介绍 分 布 式 卷 积 神经 网 络 , 并 展示 了 如 


















































































































































何 使 用 Hadoop 和 Deeplearning4j 来 实现 分 布 式 卷 积 神经 网 络 。 


第 4 章 ， 循 环 神经 网 络 。 循 环 神经 网 络 是 一 种 特殊 的 神经 网 络 ， 可 作用 于 长 向 量 序列 ， 以 产 
生 不 同 的 向 量 序列 。 近 年 来 , 它们 已 成 为 可 变 长 序列 建 模 中 极 受 欢迎 的 选择 。 循 环 神经 网 络 已 经 
成 功 应 用 于 语音 识别 、 在 线 手写 识别 、 语 言 建 模 等 领域 。 通 过 提供 一 些 必要 的 数学 关系 和 可 视 化 
表征 ,这 一 章 详细 阐释 了 循环 神经 网 络 的 各 种 概念 。 循 环 神经 网 络 拥有 自己 的 “内 存 ” 来 存储 中 
间 隐 藏 层 的 输出 。“ 记 忆 ” 是 循环 神经 网 络 的 核心 部 分 ， 这 一 章 用 合适 的 框图 对 其 进行 了 讨论 。 
此 外 ,为 了 克服 单 问 循环 神经 网 络 的 局 限 性 ， 这 一 章 引 入 了 双向 循环 神经 网 络 的 概念 。 随 后 , 为 
了 解决 第 1 章 中 提 到 的 梯度 消失 问题 , 讨论 了 循环 神经 网 络 中 被 称 为 “长 短期 记忆 ”的 一 个 特殊 
单元 。 最 后 ， 使 用 Deeplearning4j 在 Hadoop 中 实现 分 布 式 深度 循环 神经 网 络 。 


第 5 章 ， 受 限 玻 尔 兹 曼 机 。 这 一 章 涵盖 了 第 3 章 和 第 4 章 中 讨论 过 的 两 种 模型 ， 并 说 明了 它 
们 是 判别 模型 ， 还 探讨 了 名 为 “ 受 限 玻 尔 兹 曼 机 ”的 生成 模型 。 在 给 定 隐藏 参数 时 ， 受 限 玻 尔 兹 
曼 机 能 够 随机 生成 可 见 的 数值 。 该 章 首 先 介绍 了 “基于 能 量 的 模型 ”这 一 概念 ， 并 阐释 了 受 限 玻 
尔 兹 曼 机 和 它 的 关系 。 此 外 ,还 讨论 了 一 种 被 称 为 “ 卷 积 受 限 玻 尔 兹 曼 机 ”的 特殊 受 限 玻 尔 效 曼 
机 ， 它 是 卷 积 和 受 限 玻 尔 效 曼 机 的 组 合 ， 有 助 于 提取 高 维 图 像 的 特征 。 


这 一 章 的 后 半 部 分 介绍 了 深度 信念 网 络 , 这 是 一 种 被 广泛 使 用 的 、 由 几 个 受 限 玻 尔 效 曼 机 组 
成 的 多 层 网 络 。 此 外 ， 还 讨论 了 如 何 使 用 Hadoop 在 分 布 式 环境 中 实现 深度 信念 网 络 。 最 后 讨论 
了 如 何 使 用 Deeplearning4j 实现 受 限 玻 尔 兹 曼 机 以 及 分 布 式 深度 信念 网 络 。 


第 6 章 ， 自 动 编码 器 。 这 一 章 引入 了 一 种 称 为 “自动 编码 器 ”的 生成 模型 ， 这 种 模型 通常 用 
于 降 维 、 特 征 学 习 或 提取 。 该 章 首 先 解释 了 自动 编码 器 的 基本 概念 及 其 通用 框图 。 自 动 编码 器 的 
核心 结构 基本 上 可 分 为 编码 器 和 解码 器 两 部 分 。 编码 器 将 输入 映射 到 隐藏 层 , 而 解码 器 将 隐藏 层 
映射 到 输出 层 。 基础 自动 编码 器 的 主要 作用 是 将 输入 层 的 某 些 方面 复制 到 输出 层 。 这 一 章 接着 讨 
论 了 稀 玖 自动 编码 器 , 它 基 于 隐 蕊 层 的 分 布 式 稀 跑 表征 。 随 后 深入 介绍 了 包含 多 个 编码 高 和 解码 
器 的 深度 自动 编码 吉 的 概念 , 并 提供 了 适当 的 示例 和 框图 。 该 章 后 半 部 分 对 降 吕 自动 编码 器 和 堆 
用 式 降 噪 自动 编码 器 进行 了 说 明 。 最 后 展示 了 如 何 使 用 Deeplearning4j 在 Hadoop "PSE WHE xk 
降 噪 自动 编码 器 和 深度 自动 编码 器 。 

第 7 章 , 用 Hadoop 玩 转 深度 学 习 。 这 一 章 主 要 介绍 分 布 式 环境 中 三 种 最 常用 的 机 器 学 习 应 
用 的 设计 。 该 章 讨论 了 如 何 使 用 Hadoop 进行 大 规模 的 视频 处 理 、 图 像 处 理 和 自然 语言 处 理 ， 阐 
释 了 如 何在 Hadoop 分 布 式 文件 系统 中 部 署 大 型 视频 和 图 像 数 据 集 ， 并 使 用 Map-Reduce 算法 进 
行 处 理 。 对 于 自然 语言 处 理 ， 该 章 最 后 对 其 设计 和 实现 进行 了 深入 的 说 明 。 
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我 们 希望 本 书 的 所 有 读者 都 具有 一 定 的 计算 机 科学 背景 。 本 书 主要 讨论 不 同 的 深度 神经 网 
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络 ， 以 及 其 基于 Deeplearning4j 的 设计 和 应 用 。 为 了 更 好 地 学 习 本 书 中 的 内 容 ， 你 最 好 已 掌握 机 
器 学 习 、 线 性 代数 、 概 率 论 、 分 布 式 系 统 和 Hadoop 的 基础 知识 。 为 了 使 用 Hadoop 实现 深度 神 
经 网 络 ， 本 书 广泛 应 用 了 Deeplearning4j 。 运 行 Deeplearning4j 所 需 的 知识 可 以 参考 以 下 链接 : 
https://deeplearning4j.org/quickstart。 








读者 对 象 


如 果 你 是 想 学 习 如 何在 Hadoop 上 进行 深度 学 习 的 数据 科学 家 ， 那 么 本 书 很 适合 你 。 对 机 器 
学 习 的 基本 概念 与 Hadoop 有 一 定 的 了 解 ， 将 有 助 于 你 充分 利用 本 书 。 





排版 约定 
在 本 书 中 ， 你 会 发 现 一 些 不 同 的 文本 样式 。 以 下 举例 说 明 它们 的 含义 。 
嵌入 代码 、 数 据 库 表 名 、 用 户 输 入 等 用 等 宽 字体 表示 ,例如 :“. puila O 函数 用 于 构建 层 。” 
代码 块 的 样式 如 下 所 示 : 


public static final String DATA_URL = 
"http://ai.stanford.edu/~amaas/data/sentiment/*"; 


当 我 们 希望 你 注意 代码 块 中 的 特定 部 分 时 ， 相 关 行 或 项 目 将 以 粗 体 显示 : 


MultiLayerNetwork model = new MultiLayerNetwork (getConfiguration()); 
Model.init(); 


新 术语 和 重要 内 容 会 以 黑体 字 显 示 。 


GD 此 图 标 表示 警告 或 重要 事项 。 


人 此 图 标 表示 提示 和 技巧 。 


读者 反馈 


我 们 非常 欢迎 读者 的 积极 反馈 。 如 果 你 对 本 书 有 任何 想法 或 看 法 , 请 及 时 反馈 给 我 们 ,这 将 
有 助 于 我 们 出 版 充分 满足 读者 需求 的 图 书 。 一 般 性 反馈 请 发 送 至 电子 邮箱 feedback@packtpub.com, 
并 在 邮件 主题 中 注 明 书 名 。 如 果 你 擅长 某 个 领域 , 并 有 意 编写 图 书 或 是 贡献 一 份 力量 ， 可 以 参考 
我 们 的 作者 指南 : http://www.packtpub.com/authors。 

















客户 支持 
你 现在 已 经 是 Packt 的 尊贵 读者 了 。 为 了 让 你 的 购买 物 超 所 值 , 我 们 还 为 你 准备 了 以 下 内 容 。 








下 载 示例 代码 


你 可 以 使 用 自己 的 账户 从 http://www.packtpub.com 下载 所 有 已 购 Packt 图 书 的 示例 代码 文件 。 
如 果 你 是 从 其 他 途径 购买 的 本 书 , 那么 可 以 访问 http:/www.packtpub.com/support 并 注册 , 我 们 将 
通过 电子 邮件 向 你 发 送 文件 。 


可 以 通过 以 下 步骤 下 载 示 例 代 码 文件 。 


(1) 使 用 电子 邮件 和 密码 登录 或 注册 我 们 的 网 站 。 
(2) 将 鼠标 光标 移 到 网 站 上 方 的 SUPPORT 标签 。 
(3) 单 击 Code Downloads & Errata 按钮 。 

(4) 在 搜索 框 中 输入 书 名 。 

(5) 选择 想 要 下 载 代 码 文件 的 图 书 。 

(6) 从 下 拉 菜 单 中 选择 购书 途径 。 

(7) 单 击 Code Download 按钮 。 


下 载 文件 后 ， 确 保 使 用 以 下 软件 的 最 新 版 来 解压 文件 : 


口 WinRAR /7-Zip ( Windows ) 
O Zipeg / iZip / UnRarX (Mac ) 
Q 7-Zip / PeaZip ( Linux) 















































也 可 以 在 GitHub 上 获取 本 书 的 代码 包 ， 具 体 网 址 为 https://github.com/PacktPublishing/Deep- 
Learning-with-Hadoop. 444}, https://github.com/PacktPublishing 上 还 有 其 他 图 书 的 代码 包 和 视频 ， 
你 可 以 自行 下 载 。 


下 载 本 书 的 彩色 图 片 


我 们 还 提供 了 一 份 PDF 文件 ， 其 中 包含 了 书 中 的 截屏 和 图 表 等 彩色 图 片 ， 以 帮助 你 更 好 地 理解 
输出 的 变化 。 下 载 网 址 为 https:/www.packtpub.com/sites/default/files/downloads/DeepLearningwithHadoop_ 
ColorImages.pdf。 








勘误 
虽然 我 们 已 尽力 确保 书 中 的 内 容 正 确 无 误 , 但 出 错 仍旧 在 所 难免 。 如 果 在 书 中 发 现 错 误 , 不 
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管 是 文本 还 是 代码 , 希望 你 能 够 告知 我 们 ,我 们 将 不 胜 感激 。 这 样 一 来 ,你 可 以 让 其 他 读者 免 受 
挫败 ,也 可 以 帮助 我 们 改进 本 书 的 后 续 版 本 ,如 果 发 现任 何 错误 ,请 访问 http://www.packtpub.com/ 
submit-errata， 选 择 本 书 ， 单 击 Errata Submission Form 链接 ， 并 输入 详细 说 明 。" 经 过 核实 后 ， 你 
提交 的 勘误 内 容 将 上 传 到 官方 网 站 或 添加 到 现 有 的 勘误 表 中 。 


访问 https://www.packtpub.com/books/content/support， 在 搜索 框 中 输入 书 名 后 就 可 以 在 勘误 
( Errata ) 部 分 查看 已 经 提交 的 勘误 信息 。 


























盗版 


任何 媒体 都 会 面临 版 权 内 容 在 互联 网 上 的 盗版 问题 ，Packt 也 不 例外 。Packt 非常 重视 版 权 保 
护 。 如 果 你 在 互联 网 上 发 现 了 我 们 作品 的 非法 复制 版 ,不 管 该 复制 版 以 何 种 形式 存在 ,请 立即 提 
供 相 关 网 址 或 网 站 名 称 ， 以 便 我 们 寻求 补救 。 


请 将 可 疑 盗版 材料 的 链接 发 至 copyright@packtpub.com. 
维护 作者 的 权益 就 是 在 维护 我 们 继续 为 你 带 来 价值 的 能 力 ， 感谢 你 对 此 作出 的 努力 。 
































如 果 你 对 本 书 内 容 存 有 任何 疑虑 ， 可 以 通过 questions@packtpub.com 联系 我 们 ,我 们 将 尽 最 
大 努力 解决 问题 。 








电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 








D 中 文 版 勘误 可 以 在 http://www.ituring.com.cn/book/1940 中 查看 和 提交 。 一 一 编者 注 
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“到 目前 为 止 ， 人工 智 能 的 最 大 危险 是 人 们 过 旱地 断定 了 他 们 了 解 人 工 智能 。” 
Eliezer Yudkowsky 


你 是 否 想 过 ， 为 什么 即使 是 最 顶尖 的 选手 也 很 难 在 国际 象棋 比赛 中 战胜 计算 机 ? Facebook 
如 何在 数 亿 张 照片 中 识别 出 你 的 脸 ? 你 的 手机 如 何 识别 你 的 声音 并 从 数 百 个 联系 人 中 呼叫 正确 
的 人 ? 


本 书 的 主要 目标 就 是 处 理 这 些 查询 ， 并 提供 详细 的 解决 方案 。 本 书 可 供 多 种 读者 阅读 使 用 ， 
但 我 们 的 目标 读者 主要 有 两 类 。 第 一 类 是 学 习 深度 学 习 和 人 工 知 能 的 本 科 生 或 研究 生 , 第 二 类 是 
对 大 数据 、 深 度 学 习 和 统计 建 模 有 一 定 了 解 , 但 想 快 速 了 解 如 何 将 深度 学 习 应 用 于 大 数据 领域 以 
及 如 何 将 大 数据 技术 应 用 于 深度 学 习 领 域 的 软件 工程 师 。 


本 章 将 介绍 深度 学 习 的 基本 概念 、 术 语 、 特 性 和 主要 挑战 ， 主 要 是 为 读者 打 好 基础 。 本 章 还 
提出 了 不 同 深度 网 络 算法 的 分 类 ,这 些 算法 在 最 近 十 年 被 研究 者 广泛 采用 。 本 童 涉及 的 主题 如 下 : 


O 开始 深度 学 习 之 旅 
O 深度 学 习 的 术语 

O 深度 学 习 一 一 场 人 工 智能 的 革命 
O 深度 学 习 网 络 的 分 类 


自 人 类 文明 诞生 以 来 , 人 们 总 是 梦想 着 建造 人 工 机 器 或 机 器 人 , 它们 可 以 像 人 类 一 样 运 作 和 
工作 。 从 希腊 神话 人 物 到 古 印度 史诗 , 历史 中 有 许多 这 样 的 示例 ,它们 清楚 地 表明 了 人 们 的 兴 
和 意向 : 创造 并 拥有 人 工 生命 。 


在 计算 机 时 代 的 初期 , 人 们 就 想 知 道 计算 机 将 来 能 否 变 得 像 人 类 一 样 聪明 。 后 来 ,自动化 机 
器 开始 变 得 不 可 或 缺 ， 即 便 在 医学 领域 也 是 如 此 。 随 着 这 种 需求 和 人 们 对 这 一 领域 的 不 断 研 究 ， 
人 工 智能 (Artificial Intelligence, Al) 已 经 是 一 种 呈 莲 勃发 展 之 势 的 技术 ， 在 多 个 领域 ， 如 图 像 
处 理 、 视 频 处 理 以 及 许多 其 他 医学 工具 ， 都 得 到 了 应 用 。 


虽然 人 工 智能 解决 了 很 多 日 常 问题 , 但 没有 人 知道 编码 人 工 智 能 系统 的 具体 规则 。 比 较 直 观 
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的 几 个 问题 如 下 所 示 。 


O Google 搜索 ， 它 在 理解 你 输入 或 说 出 的 内 容 方面 做 得 很 好 。 
O 像 上 文 提 到 的 ，Facebook 在 识别 人 脸 方面 也 做 得 不 错 ， 从 而 可 以 理解 用 户 的 兴趣 所 在 。 


此 外 ， 随 着 各 种 其 他 领域 的 整合 ， 如 概率 论 、 线 性 代数 、 统 计 学 、 机 器 学 习 和 深度 学 习 等 ， 
人 工 智能 在 研究 领域 备 受 青睐 。 


人 工 智能 早期 取得 成 功 的 一 个 关键 原因 是 , 它 主 要 解决 的 是 基本 问题 ， 而 计算 机 在 解决 这 些 
问题 时 不 需要 使 用 大 量 的 知识 。 例 如 , 1997 年, IBM 的 深蓝 计算 机 击败 了 国际 象棋 世界 冠军 Garry 
Kasparovl 1。 虽 然 这 一 成 就 在 当时 是 很 了 不 起 的 ,但 用 国际 象棋 的 有 限 规则 来 训练 计算 机 绝对 不 
算是 一 个 繁重 的 任务 。 用 固定 且 数 量 有 限 的 规则 来 训练 系统 称 为 计算 机 的 硬 编码 知识 。 许多 人 工 
智能 项 目 都 经 历 了 用 传统 语言 来 描述 世界 不 同 领 域 的 硬 编码 知识 的 阶段 。 随 着 时 间 的 推移 , 这 种 
硬 编码 知识 似乎 不 再 适用 于 处 理 拥有 大 量 数据 的 系统 。 而 且 , 数据 遵循 的 规则 数量 也 在 不 断 地 改 
变 。 因 此 ， 遵 循 这 一 系统 的 大 多 数 项 目 并 没有 达到 预期 的 高 度 。 


要 想 克 服 这 种 硬 编 码 知 识 所 面临 的 困难 , 这 些 人 工 智能 系统 需要 以 某 种 方式 从 提供 的 原始 数 
据 中 概括 出 模型 和 规则 ， 而 无 需 外 部 灌输 。 系 统 做 这 件 事 的 熟练 程度 被 称 为 机 器 学 习 。 日 常生 活 
中 有 各 种 各 样 成 功 的 机 器 学 习 实现 ， 以 下 是 几 个 最 常见 且 最 重要 的 实现 。 


口 垃圾 邮件 检测 : 对 于 收 件 箱 中 的 电子 邮件 ， 模 型 可 以 检测 是 将 该 电子 邮件 放 在 垃圾 箱 还 
是 收 件 箱 中 。 普 通 的 朴素 贝 叶 斯 模型 就 可 以 区 分 这 样 的 电子 邮件 。 

口 信用 卡 欺诈 检测 : 模型 可 以 检测 在 特定 时 间 间 隔 内 执行 的 多 个 交易 是 否 是 由 最 初 的 客户 
执行 的 。 

口 最 受 欢迎 的 机 器 学 习 模 型 之 一 是 Mor-Yosef 等 人 在 1990 年 提出 的 ， 该 模型 使 用 了 逻辑 回 
归 ， 可 以 对 患者 是 否 需 要 剖腹 产 给 出 建议 。 


这 样 的 模型 有 很 多 ， 它 们 是 借助 机 带 学 习 技术 实现 的 ， 如 图 1-1 所 示 。 
ag 


























































































































































































































图 1-1 不 同类 型 的 表征 示例 。 假 设 需要 训练 机 器 来 检测 糖 豆 之 间 的 空 除 。 图 中 右 侧 的 
糖 豆 稀 琉 ， 人 工 智 能 系统 可 以 很 容易 就 确定 空 除 。 图 中 左 侧 的 糖 豆 非常 紧凑 ， 
找到 空隙 对 机 器 来 说 是 一 个 非常 困难 的 任务 〈 图像 来 自 USC-SIPI 图 像 数据 库 ) 
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机 器 学 习 系统 的 性 能 主要 取决 于 向 系统 提供 的 数据 , 这 称 为 数据 表征 。 与 表征 相关 的 所 有 信 
息 称 为 数据 的 特征 。 例 如 ,如 果 使 用 逻辑 回归 来 检测 患者 是 否 患 有 脑 肿瘤 ,那么 人 工 智能 系统 不 
会 尝试 直接 诊断 患者 。 相 反 ,， 相 关 医 生 需 要 将 该 患者 的 常见 症状 输入 系统 ,接着 人 工 智 能 系统 会 
将 输入 的 信息 与 用 于 训练 系统 的 以 往 信息 相 匹配 。 


基于 系统 的 预测 分 析 ， 人 工 智 能 系统 会 对 疾病 做 出 诊断 。 虽 然 逻辑 回归 可 以 基于 给 定 的 特征 
来 学 习 和 决策 , 但 它 不 能 影响 或 修改 特征 的 定义 方式 。 逻 辑 回 归 是 一 种 回归 模型 ， 基 于 自 变 量 的 
因 变 量 的 可 能 值 是 有 限 的 ,这 一 点 与 线性 回归 不 同 。 因 此 ， 如 果 提 供给 模型 的 是 剖腹 产 患 者 的 报 
告 而 不 是 脑 肿 瘤 患 者 的 报告 , 那么 它 肯定 不 能 预测 出 正确 的 结果 , 因为 给 定 的 特征 与 训练 的 数据 
不 匹配 。 


机 器 学 习 系 统 对 数据 表征 的 依赖 对 我 们 来 说 并 非 是 未 知 的 。 事 实 上 , 大 多 数 计算 机 理论 都 是 
基于 数据 表征 而 表现 得 更 好 。 例如 , 模式 设计 会 对 数据 库 的 质量 产生 影响 。 任 何 数据 库 查 询 的 执 
行 ,哪怕 是 在 百 万 甚至 千 万 行 的 数据 上 查询 ， 只 要 表格 被 正确 索引 , 那么 速度 就 会 变 得 极 快 。 因 
此 ， 人 工 智能 系统 对 数据 表征 的 依赖 也 没什么 可 让 人 大 惊 小 怪 的 。 


日 常生 活 中 也 有 很 多 这 样 的 示例 ， 其 中 数据 表征 决定 了 我 们 的 效率 。 从 20 人 中 找到 一 个 人 
明显 比 从 500 人 中 找到 一 个 人 容易 。 图 1-1 就 是 两 种 类 型 的 数据 表征 的 可 视 化 表示 。 

因此 , 如 果 向 人 工 智 能 系统 传递 适当 的 特征 数据 ,那么 即便 是 最 困难 的 问题 也 可 以 得 到 解决 。 
然而 ， 以 正确 的 方式 收集 并 传递 系统 期 望 的 数据 对 于 程序 员 来 说 是 一 大 难题 。 


在 许多 实际 场景 中 ,提取 特征 可 能 是 一 件 繁琐 的 事情 。 因 此 , 数据 的 表征 方式 决定 了 系统 智 
能 的 主要 因素 。 

























































































如 果 特 征 不 恰当 , 那么 从 人 和 猫 的 组 合 中 找到 猫 将 会 是 非常 复杂 的 任务 。 我 们 都 
知道 猫 有 尾巴 , 因此 可 能 会 想 要 将 有 尾部 作为 突出 特征 。 然而 ,鉴于 尾巴 有 不 同 
Gp 的 形状 和 大 小 ,通常 很 难 用 像素 值 来 准确 地 描述 尾部 。 此外, 尾巴 有 时 可 能 会 与 
人 的 手 部 混淆 。 另 外 ,一些 物 体 的 重 司 可 能 会 导致 看 不 到 猫 尾 巴 的 存在 , 使 得 图 
像 更 加 复杂 。 


从 上 述 讨论 可 以 得 出 一 个 确切 的 结论 : 人 工 智能 系统 的 成 功 主 要 取决 于 输入 数据 的 表征 方 
式 。 除 此 之 外 , 不 同 的 表征 还 能 捕获 与 保留 能 够 解释 数据 差异 性 的 那些 隐藏 因素 (解释 性 因素 )。 


表征 学 习 是 解决 这 些 特定 问题 时 广泛 使 用 的 一 种 流行 学 习 方法 。 表 征 学 习 可 以 定义 为 根据 数 
据 当前 层 的 表征 来 推 新 下 一 层 数据 的 表征 。 在 理想 情况 下 ， 所 有 的 表征 学 习 算 法 都 有 一 个 优势 
它 捕 获 隐藏 的 因素 ， 而 这 一 子 集 可 能 适用 于 每 个 特定 的 子 任务 。 图 1-2 中 给 出 了 简单 的 说 明 ， 如 
下 所 示 。 




































































输出 |[ 任务 A | | 任务 B | | 任务 C | | 任务 D | | 任务 E | 












各 任务 共享 的 
解释 子 集 


中 间 标 签 








输入 数据 集 


图 1-2 表征 学 习 的 简单 说 明 。 中 间 层 能 够 发 现 解释 性 因素 ( 蓝 色 方 框 中 的 隐藏 层 )。 有 
些 因素 解释 了 每 个 任务 的 目标 ， 有 些 因素 则 解释 了 任务 的 输入 


























然而 ,从 大 量 原始 数据 中 提取 高 级 数据 和 特征 需要 人 类 级 别 的 理解 力 , 这 就 有 了 局 限 。 以 下 
就 是 这 样 的 示例 。 


口 区 分 年 龄 相仿 的 两 个 婴儿 的 器 声 。 
口 识别 猫眼 在 白天 与 黑夜 的 图 像 。 因 为 猫眼 在 夜间 会 发 光 ， 所 以 完成 这 项 工作 并 不 轻松 。 


在 所 有 这 些 极端 情况 中 ， 表 征 学 习 并 没有 腊 常 的 表现 ， 而 是 展现 出 了 威慑 行为 。 


深度 学 习 是 机 器 学 习 的 一 个 子 领域 。 通 过 构建 多 层次 的 表征 或 从 一 系列 简单 的 表征 和 特征 中 
学 习 一 个 具有 层次 结构 的 特征 集 ， 深 度 学 习 能 够 解决 表征 学 习 的 主要 问题 ®。 




















第 三 隐藏 层 
(对 象 部 分 ) 


第 二 隐藏 层 
( 角 和 轮廓 ) 


可 见 层 
(输入 像素 ) 

















图 1-3 通过 识别 各 种 组 合 ( 如 轮廓 、 角 ,可 以 用 边缘 来 定义 )， 此 图 展示 了 深度 学 习 系 
统 如 何 显示 人 的 图 像 。 图 片 的 转载 获得 了 Ian Goodfellow、Yoshua Bengio 和 
Aaron Courville 的 许可 ， 来 源 于 The MIT Press 出 版 的 Deep Learning 一 书 
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1-3 对 深度 学 习 模 型 进行 了 说 明 。 就 像 将 一 系列 不 同 的 像素 值 构 成 一 幅 图 像 一 样 ， 用 计算 
机 解码 这 些 原始 的 非 结构 化 的 输入 数据 通常 是 一 件 很 繁琐 的 事 。 在 理想 情况 下 , 转换 像素 值 来 识 
别 图 像 的 映射 函数 是 很 难 实现 的 。 此 外 ,为 这 类 映射 直接 训练 计算 机 几乎 是 不 可 能 的 。 为 了 应 对 
这 些 类 型 的 任务 , 深度 学 习 会 创建 连接 至 期 望 输出 的 一 系列 映射 子 集 ， 以 解决 这 类 难题 。 映 射 的 
每 个 子 集 对 应 于 模型 的 一 个 层 。 输 入 层 包 含 了 可 以 观察 的 变量 ,因此 处 于 可 见 层 。 我们 可 以 从 给 
定 的 输入 中 逐 层 提取 数据 的 抽象 特征 。 因 为 这 些 抽 象 的 值 在 给 定数 据 中 是 不 可 用 或 不 可 见 的 , 所 
以 这 些 层 称 为 隐藏 层 。 


在 图 1-3 的 第 一 隐藏 层 中 ,通过 对 相 邻 像素 进行 比较 学 习 ， 可 以 轻易 地 识别 出 边缘 。 第 二 隐 
藏 层 可 以 将 角 和 轮廓 从 第 一 隐藏 层 的 边缘 中 区 分 开 来 。 基于 描述 角 和 轮廓 的 第 二 隐藏 层 , 第 三 隐 
藏 层 可 以 识别 特定 对 象 的 不 同 部 分 ， 最终 可 以 从 第 三 隐藏 层 中 检测 出 图 中 存在 的 不 同 对 象 。 


深度 学 习 由 Hinton 等 人 于 2006 年 提出 中，Bengio 等 人 在 2007 年 将 其 用 于 解决 MNIST 数字 
分 类 问题 。 最 近 几 年 , 深度 学 习 经 历 了 从 数字 识别 向 自然 图 像 的 物体 识别 的 重大 转变 。 除 此 之 外 ， 
Krizhevsky 等 人 在 2012 年 使 用 了 ImageNet 数据 集 ， 这 实现 了 深度 学 习 领 域 的 一 个 重大 突破 。 


本 书 的 范围 仅 限于 深度 学 习 。 因 此 ， 在 进入 主题 之 前 ， 需 要 先 明确 与 深度 学 习 有 关 的 概念 。 


在 过 去 的 10 年 间 ， 许 多 学 者 从 不 同 角度 对 深度 学 习 进 行 了 定义 ， 但 目前 还 没有 一 个 统一 的 
定论 。 以 下 是 被 广泛 接受 的 两 种 定义 。 


O GitHub: 深度 学 习 是 机 带 学 习 人 研究 的 一 个 新 领域 ,其 目的 是 让 机 器 学 习 更 接近 其 原始 目 
标 之 一 一 一 人 工 智能 。 深 度 学 习 是 学 习 多 层次 的 表征 和 抽象 的 一 种 方法 ， 有 助 于 理解 图 
像 、 声 音 和 文本 等 数据 。 

O 维基 百科 : 深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 基于 一 组 算法 ， 通 过 线性 或 非 线 性 的 转 
换 ， 尝 试 使 用 具有 多 个 处 理 层 的 深度 图 来 对 数据 中 的 高 级 抽象 进行 建 模 。 


上 述 定义 表明 , 也 可 以 认为 深度 学 习 是 一 类 特殊 的 机 器 学 习 。 深度 学 习 具 有 从 各 种 简单 特征 
中 学 习 复杂 表征 的 能 力 ， 这 使 其 在 数据 科学 领域 获得 了 广泛 的 应 用 。 为 了 进一步 了 解 深度 学 习 ， 
我 们 列 出 了 本 书后 面 将 经 常 使 用 的 一 些 术语 。 接 下 来 将 给 出 各 种 术语 和 深度 学 习 使 用 的 重要 网 
络 ， 以 帮助 你 商定 深度 学 习 的 基础 。 























































































































































































































1.1 开始 深度 学 习 之 旅 


开始 本 书 的 深度 学 习 之 旅 曾 , 你 应 当 了 解 机 器 学 习 的 所 有 术语 和 基本 概念 。 如 果 已 经 充分 了 
解 了 机 器 学 习 及 其 相关 术语 ， 那 么 你 可 以 忽略 本 节 ， 直 接 跳 转 到 1.2 节 开 始 阅 读 。 热 囊 于 数据 科 
学 ， 同 时 想 要 彻底 学 习 机 器 学 习 的 读者 ， 可 以 阅读 Machine Learning (Tom M. Mitchell, 1997 ) P 
和 Machine Learning: A Probabilistic Perspective (2012 ) 这 两 本 书 。 














0 注意 ， 神 经 网 络 并 不 会 产生 奇迹 ， 但 合理 地 使 用 它们 可 以 产生 一 些 惊 人 的 效果 。 


1.1.1 深度 前 馈 网 络 


神经 网 络 可 以 是 循环 的 或 前 馈 的 。 前 馈 网 络 在 其 网 络 图 中 并 没有 任何 循环 结构 。 具有 多 层次 
的 网 络 称 为 深度 网 络 。 简 单 来 说 , 任何 具有 两 层 或 更 多 ( 隐藏 ) 层 的 神经 网 络 被 定义 为 深度 前 馈 
网 络 或 前 馈 神经 网 络 。 图 1-4 显示 了 深度 前 馈 神经 网 络 的 一 般 形式 。 
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图 1-4 浅 层 前 馈 网 络 和 深度 前 馈 网 络 


深度 前 僻 网 络 的 工作 原理 是 ， 随 着 深度 的 增加 ， 网络 可 以 执行 更 多 的 顺序 指令 。 顺序 指令 可 
以 提供 很 大 的 威力 ， 因 为 它们 可 以 指向 较 早 的 指令 。 


前 馈 网 络 的 目的 是 对 某 个 函数 了 进行 通用 化 。 例 如 ,分 类 器 y=fx) 将 输入 值 x 映射 到 类 别 yo 
深度 前 馈 网 络 将 该 映射 关系 修改 为 y= fx; o)， 并 学 习 参 数 a 的 值 ， 从 而 得 到 最 适合 的 函数 值 。 
图 1-4 是 深度 前 馈 网 络 的 简单 表示 ， 它 展示 了 深度 前 馈 网 络 与 传统 神经 网 络 的 架构 差异 。 





















































i) 注意 ， 深 度 神经 网 络 是 具有 多 个 隐藏 层 的 前 馈 网 络 ， 


1.1.2 ”各 种 学 习 算法 


数据 集 被 认为 是 学 习 过 程 的 基石 。 数 据 集 可 以 定义 为 相互 关联 的 数据 的 集合 , 该 集合 由 多 个 
独立 的 实体 组 成 , 但 也 可 以 根据 使 用 场景 将 该 集合 当 作 单个 实体 。 数据 集 的 各 个 数据 元 素 称 为 数 
据点 。 
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图 1-5 是 从 社交 网 络 分 析 中 收集 到 的 各 种 数据 点 的 可 视 化 表示 。 | 
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图 1-5 社会 网 络 分 析 的 分 散 数据 点 〈 图 片 来 源 于 维基 百科 ) 





O 未 标记 的 数据 : 这 部 分 数据 由 人 为 生成 的 对 象 组 成 ， 这 些 对 象 可 以 从 周围 环境 中 轻松 获 
取 ， 如 射线、 日志 文件 数据 、 新 闻 文章 、 演 讲 、 视 频 、 推 文 等 。 

O 已 标记 的 数据 ， 这 部 分 数据 是 通过 将 一 组 未 标记 的 数据 进行 标准 化 而 得 到 的 。 这 类 数据 
通常 是 格式 化 的 、 已 分 类 的 、 已 标签 化 的 ， 并 且 易于 人 类 理解 ， 以 便 进 行进 一 步 的 处 理 。 
从 最 高 层面 来 看 ， 机 器 学 习 技术 可 以 根据 不 同 的 学 习 过 程 分 为 监督 学 习 和 无 监督 学 习 。 

1. 无 监督 学 习 

在 无 监督 学 习 算法 中 ,给 定 的 输入 数据 集 没有 期 望 的 输出 。 在 分 析 数 据 集 时 ， 系 统 从 其 经 验 
中 学 习 有 意义 的 属性 和 特征 。 在 深度 学 习 中 ， 系 统 通 常会 尝试 从 数据 点 的 整体 概率 分 布 中 学 习 。 
到 目前 为 止 ， 执 行 聚 类 的 无 监督 学 习 算法 有 多 种 类 型 简单 地 说 ， 聚 类 将 具有 相似 数据 类 型 的 多 
个 数据 点 放 入 同一 个 秘 中 。 但 是 ， 通 过 这 种 学 习 ， 其 最 终 输 出 不 会 提供 任何 反馈 ,也 就 是 说 ,不 
会 有 任何 老师 来 纠正 你 的 错误 。 图 1-6 展示 了 无 监督 聚 类 。 













































































图 1-6 简单 的 无 监督 聚 类 


Google News 是 无 监督 聚 类 算法 在 现实 生活 中 的 一 个 实际 应 用 。 在 Google News 中 打开 某 个 
主题 时 , 将 显示 重 定向 到 多 个 页 面 的 超 链 接 。 每 一 个 主题 都 可 以 看 作 是 指向 各 个 独立 链接 的 超 链 
接 集群 。 


2. 监督 学 习 


与 无 监督 学 习 不 同 ， 监 督学 习 中 的 期 望 输出 与 每 一 步 经 验 相 关联 。 系 统 被 赋予 一 个 数据 集 ， 
同时 它 已 经 知道 了 期 望 的 输出 是 什么 , 并 了 解 每 个 相关 层 的 输入 和 输出 间 的 正确 关系 。 这 种 学 习 
类 型 通常 用 于 分 类 问题 。 


监督 学 习 的 可 视 化 说 明 如 图 1-7 所 示 。 
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期 望 的 分 类 面 
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(a) (b) 
图 1-7 ”基于 监督 学 习 的 数据 分 类 








监督 学 习 的 现实 示例 包括 面部 检测 、 面 部 识别 等 。 


虽然 监督 学 习 和 无 监督 学 习 看 起 来 不 同 , 但 它们 往往 通过 各 种 方式 联系 在 一 起 。 因 此 , 这 两 
种 学 习 方法 之 间 的 细微 差异 往往 是 模糊 的 。 


可 以 使 用 以 下 的 数学 表达 式 来 表达 前 面 的 陈述 。 
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概率 的 一 般 乘 积 法 则 表明 ， 对 了 个 数据 集 (nR ) 来 说 ， 其 联合 概率 分 布 如 下 所 示 : 
p(n) =D rr, | 70), 72, ,°°>,7,_,) 


这 个 分 布 表明 ， 无 监督 问题 可 以 转换 为 + 个 监督 问题 来 解决 。 除 此 之 外 ，P(E | n) 的 条 件 概 率 
是 个 监督 问题 ， 可 以 通过 使 用 无 监督 学 习 算 法 求 得 p(n, 月 的 联合 概率 来 解决 。 


p(n,k) 
>,p(n,r) 


虽然 这 两 类 问题 不 能 完全 地 独立 , 但 它们 有 助 于 基于 执行 的 操作 来 区 分 机 器 学 习 和 深度 学 习 
算法 。 通 常 来 说 , 簇 的 形成 、 基 于 相似 性 识别 人 群 密度 等 称 为 无 监督 学 习 ， 而 结构 化 的 输出 、 回 
归 、 分 类 等 问题 称 为 监督 学 习 。 

3. 半 监 督学 习 

顾名思义 , 这 种 类 型 的 学 习 在 训练 期 间 同时 使 用 已 标记 和 未 标记 的 数据 。 这 是 一 类 在 训练 过 
程 中 使 用 大 量 未 标记 数据 的 监督 学 习 。 

例如 ， 半 监督 学 习 可 以 用 于 深度 信念 网 络 ( 稍 后 解释 )， 这 是 一 种 深度 网 络 ， 网 络 中 的 一 部 
分 层 用 于 学 习 数据 的 结构 〈 无 监督 学 习 )， 有 一 层 用 于 学 习 如 何 对 数据 进行 分 类 ( 监督 学 习 )。 

在 半 监 督学 习 中 ， 给 定 n 或 p(k|n) 的 概率 ,使 用 未 标记 的 数据 p(n) 与 已 标记 的 数据 p(n, 月 来 
预测 的 概率 。 

如 图 1-8 所 示 ， 顶 部 显示 了 模型 用 于 区 分 白色 和 黑色 圆圈 的 决策 边界 ， 底 部 则 显示 了 模型 所 
包含 的 另 一 个 决策 边界 。 在 该 数据 集中 , 除了 不 同类 别 的 两 个 圆圈 外 , 还 附 有 一 组 未 标记 的 数据 
《灰色 圆圈 )。 这 个 训练 过 程 可 视 为 创建 集群 ,接着 用 已 标记 的 数据 进行 标记 ， 从 而 将 模型 的 决策 
边界 从 高 密度 数据 区 域 移 走 。 




















p(k |) = 










































































图 1-8 大量 未 标记 数据 对 半 监 督学 习 技术 的 影响 ( 图 片 来 源 于 维基 百科 ) 

















你 可 以 通过 Chapelle 等 人 的 著作 中 获取 更 多 有 关 半 监督 学 习 方 法 的 信息 。 
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因为 已 经 对 人 工 智能 、 机 需 学 习 和 表征 学 习 有 了 基本 的 了 解 , 所 以 你 现在 可 以 将 学 习 的 重心 
放 在 深度 学 习 上 。 


从 前 面 提 到 的 定义 可 以 看 出 ， 深 度 学 习 具 有 两 大 特点 ， 如 下 所 示 。 


口 通过 后 续 抽 象 层 的 连续 知识 传递 ， 对 特征 的 表征 进行 无 监督 学 习 和 监督 学 习 的 一 种 方式 。 
口 由 处 理 非 线性 信息 的 多 个 抽象 阶段 组 成 的 一 个 模型 。 























1.2 ”深度 学 习 的 相关 术语 


口 深度 神经 网 络 (DNN)。 可 以 将 深度 神经 网 络 定义 为 具有 多 个 隐藏 层 的 多 层 感 知 器 。 各 层 
的 所 有 权 值 彼此 完全 连接 ， 并 接收 来 自 上 一 层 的 连接 。 可 以 通过 监督 学 习 或 无 监督 学 习 
对 权 值 进行 初始 化 。 

口 循环 神经 网 络 (RNN)。 循环 神经 网 络 是 一 种 专门 用 于 从 时 间 序 列 或 语音 、 视 频 等 序列 数 
据 中 学 习 的 深度 学 习 网 络 。 循 环 神经 网 络 的 主要 概念 是 ， 需 要 为 下 一 个 状态 保留 前 一 个 
状态 的 观察 结果 。 近 年 来 ， 循 环 神经 网 络 在 深度 学 习 中 的 热门 话题 是 长 短期 记忆 。 

口 深度 信念 网 络 (DBN)。 这 种 类 型 的 网 络 ”…… 可 定义 为 具有 可 见 层 和 多 个 〈 隐藏 ) 潜在 
变量 层 的 概率 生成 模型 。 每 个 隐藏 层 通过 学 习 在 下 层 神 经 元 间 建 立 统计 关系 。 网 络 层次 
越 高 ， 其 关系 就 越 复 森 。 可 以 使 用 逐 层 贪 禁 训练 法 对 这 种 类 型 的 网 络 进行 有 效 的 训练 ， 
以 自 下 而 上 的 方式 依次 训练 所 有 隐藏 层 。 

O 玻 尔 兹 曼 机 《〈BM)。 玻 尔 兹 曼 机 可 定义 为 一 种 对 称 连 接 的 、 神 经 元 状 的 网 络 ， 它 能 够 随 
机 决定 保持 开启 或 关闭 。 玻 尔 效 曼 机 通常 具有 简单 的 学 习 算 法 ， 因 而 可 以 从 训练 数据 集 
中 发 现代 表 复 杂 规 律 的 许多 有 趣 的 特征 。 

O 受 限 玻 尔 兹 曼 机 RBM)。 受 限 玻 尔 兹 曼 机 是 一 种 生成 式 随机 人 工 神经 网 络 ， 是 一 种 特殊 
的 玻 尔 兹 曼 机 。 这 类 网 络 具 有 在 数据 集合 上 学 习 概 率 分 布 的 能 力 。 受 限 玻 尔 兹 曼 机 由 一 
层 显 元 和 一 层 隐 元 组 成 ,但 是 连接 只 会 存在 于 显 元 与 隐 元 之 间 。 

口 卷 积 神经 网 络 《CNN)。 卷 积 神经 网 络 是 神经 网 络 的 一 部 分 ， 各 层 彼此 稀 琉 地 连接 ， 并 连 
接 至 输入 层 。 后 续 层 的 每 个 神经 元 仅 负责 输入 的 一 部 分 。 深 度 卷 积 神经 网 络 在 位 置 识别 、 
图 像 分 类 、 人 脸 识别 等 领域 取得 了 一 些 无 与 伦比 的 成 绩 。 

口 深度 自动 编码 器 。 深 度 自动 编码 需 是 一 种 具有 多 个 隐藏 层 的 自动 编码 露 。 这 类 网 络 可 以 
作为 一 堆 单 层 自 动 编码 器 来 进行 预 训练 。 模 型 训练 过 程 通常 很 困难 : 首先 需要 训练 第 一 
个 隐藏 层 来 重 构 输入 数据 ， 接 着 用 输入 数据 来 训练 下 一 个 隐藏 居 ， 以 重 构 前 一 个 隐藏 层 
的 状态 ， 以 此 类 推 。 

O 梯度 下 降 〈GD)。 这 是 在 机 咒 学 习 中 广泛 使 用 的 一 种 优化 算法 ， 可 用 于 确定 函数 S) 的 
系数 ， 它 降低 了 整个 代价 函数 。 梯 度 下 降 主 要 用 于 不 可 能 通过 分 析 〈 如 线性 代数 ) 来 计 
算 所 需 参 数 时 。 


































































































































































































































































































12 深度 学 习 的 相关 术语 11 





在 梯度 下 降 中 ， 模 型 的 权 值 随 着 训练 数据 集 的 每 次 迭代 逐步 更 新 。 
代价 函数 J 了 (w) 及 平方 误差 之 和 如 下 所 示 : 


1 ; : 
J(w) = P (target — output)” 











以 一 定 的 步 长 与 反 向 梯度 计算 权 值 更 新 的 量 级 与 方向 ， 有 具体 公式 如 下 所 示 : 


Ae ce 
ow, 


在 前 面 的 等 式 中 ，7 是 网 络 的 学 习 速 率 。 每 轮 迭代 后 ， 权 值 按 照 以 下 规则 逐步 更 新 : 


for one or more epochs, 
for each weight i, 
w.:= w+ Aw, 
end 
end 


在 此 示例 中 ，Aw = 72 (target? -output)xo) 。 





使 用 梯度 下 降 进 行 优化 的 流行 示例 是 逻辑 回归 和 线性 回归 。 


口 随机 梯度 下 降 ( Stochastic Gradient Descent, SGD )。 在 大 量 数据 集 上 运行 的 各 种 深度 学 习 
算法 都 基于 一 种 名 为 “随机 梯度 下 降 ” 的 优化 算法 。 梯 度 下 降 仅 在 小 数据 集 上 表现 良好 。 


然而 ， 在 大 规模 数据 集 的 

















青 况 下 ， 这 种 方法 的 开销 非常 大 。 在 梯度 下 降 中 ,遍历 整个 训 














练 数据 集 需 要 更 新 权 值 一 次 ， 因 此 ， 随 着 数据 的 不 断 增加 ， 整 个 算法 会 越 来 越 慢 。 权 值 





只 能 以 非常 缓慢 的 速度 更 新 ， 因 此 ， 算 法 收敛 到 全 局 最 优 成 本 所 需 的 时 间 就 延长 了 。 
因此 , 为 了 处 理 这 种 大 规模 的 数据 集 ， 开始 采用 一 种 演化 后 的 梯度 下 降 算 法 : 随机 梯度 下 降 














o 与 梯度 下 降 不 同 ， 权 值 在 训练 数据 集 的 每 次 迭代 后 更 新 ， 而 不 是 遍历 整个 数据 集 后 更 新 。 


until cost minimum is reached 
for each training sample j: 


for each weight i 
w.:= w+ Aw, 
end 
end 
end 


在 此 示例 中 ，AW = 71(target — output” )x, 。 


近 几 年 来 , 深度 学 习 得 到 了 广泛 的 普及 , 成 为 许多 应 用 学 科 的 研究 领域 的 交汇 点 ， 如 模式 识 








、 神 经 网 络 、 图 形 建 模 、 机 器 学 习 和 信号 处 理 等 。 


深度 学 习 如 此 流行 的 其 他 原因 可 以 归结 为 以 下 几 条 。 
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O 近年 来 ，GPU (Graphical Processing Units ， 图 形 处 理 器 ) 的 能 力 急 剧 提升 。 
口 用 于 模型 训练 的 数据 集 的 数据 大 小 显著 增加 。 
O 机 器 学 习 、 数 据 科 学 和 信息 处 理 方 面 的 近期 研究 已 经 取得 了 一 些 实质 性 的 进展 。 


本 章 剩余 部 分 将 对 所 有 这 几 点 进行 详细 说 明 。 














1.3 ”深度 学 习 一 一 场 人 工 智能 革命 
本 书 不 会 探讨 深度 学 习 的 侯 久 历史 。 但 为 了 认识 并 理解 这 个 领域 , 还 是 需要 了 解 一 些 基本 的 
背景 知识 。 
我 们 已 经 在 前 文中 简单 地 介绍 了 深度 学 习 在 人 工 智 能 领域 的 地 位 。 本 节 将 详细 介绍 机 器 学 习 
和 深度 学 习 的 异同 ， 并 讨论 这 两 个 主题 在 过 去 十 多 年 间 的 发 展 趋 势 。 
“深度 学 习 的 海浪 已 拍打 计算 语言 学 的 海岸 多 年 , 但 2015 年 似乎 是 海啸 全 力 歼 击 主 
要 的 自然 语言 处 理会 议 的 一 年 。” 























一 Christopher D. Manning 博士 ，2015 年 12 月 

深度 学 习 在 人 工 智 能 领域 的 影响 力 正 迅速 扩大 , 其 惊人 的 实证 结果 令 许 多 研究 人 员 震 惊 。 机 
器 学 习 和 深度 学 习 代 表 了 两 种 不 同 的 思想 学 派 。 可 以 将 机 器 学 习 视 为 人 工 智 能 最 根本 的 方法 , 而 
深度 学 习 则 是 新 的 、 拥 有 巨大 潜力 的 、 同 时 还 添加 了 其 他 功能 的 学 科 。 

然而 ， 机 需 学 习 往 往 并 不 能 完全 解决 人 工 智能 的 许多 关键 问题 ， 如 话音 识别 、 对 象 识 别 等 。 
随 着 随机 变量 数目 的 不 断 增 加 , 在 处 理 高 维 数据 的 计算 时 , 传统 算法 的 性 能 受到 了 很 大 的 挑 
战 。 此 外 , 在 传统 机 需 学 习 方法 中 实现 泛 化 的 过 程 并 不 足以 在 高 维 空间 中 学 习 复 杂 的 义务 ， 因 为 
后 者 通常 会 使 得 模型 训练 的 计算 成 本 更 高 。 机 器 学 习 基 本 算法 的 “ 盘 溃 ”推动 了 深度 学 习 的 发 展 ， 
其 目的 就 是 克服 上 述 障 碍 。 

大 量 的 研究 人 员 和 数据 科学 家 都 认为 ， 随 着 时 间 的 推移 ,深度 学 习 将 成 为 人 工 智能 的 主要 部 












































分 ， 并 终 将 蔡 代 机 器 学 习 算法 。 为 了 证 明 这 一 点 ， 我 们 研究 了 这 两 个 领域 当前 的 Google 趋势 ， 
并 得 出 以 下 结论 。 
O 机 器 学 习 曲 线 在 近 十 年 一 直 处 于 增长 趋势 。 虽 然 深度 学 习 出 现 较 晚 ， 但 仔细 观察 其 趋势 








可 以 发 现 ， 与 机 器 学 习 相 比 ， 深 度 学 习 的 增长 速度 更 快 。 
图 1-9 和 图 1-10 展示 的 都 是 Google 趋势 的 可 视 化 。 
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图 1-9 深度 学 习 十 年 前 还 处 于 初始 阶段 ， 而 机 器 学 习 在 研究 者 社区 中 已 是 一 个 热门 话题 
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图 1-10 近来， 深度 学 习 日 益 流行 ， 并 试图 达到 机 器 学 习 的 水 平 











深度 学 习 的 动机 























机 器 学 习 算法 面临 的 最 大 问题 之 一 就 是 维度 的 诅咒 ……”。 维 度 的 诅咒 是 指 ， 当 数据 集中 的 
维 数 很 高 时 ,， 某 些 学 习 算法 可 能 表现 不 佳 。 我 们 将 在 下 一 节 中 探讨 深度 学 习 是 如 何 引入 新 特性 来 
解决 这 个 问题 的 。 机 器 学 习 算 法 还 有 许多 其 他 相关 问题 ,在 处 理 这 些 问 题 时 ,深度 架构 与 传统 架 
构 相 比 有 显著 的 优势 。 本 节 会 将 明显 的 挑战 作为 单独 的 话题 进行 讨论 。 


1. 维度 的 诅咒 











维度 的 诅咒 可 以 定义 为 在 高 维 空间 ( 数 千 甚 至 更 高 的 维度 ) 分 析 和 组 织 数据 的 过 程 中 产生 的 
一 种 现象 。 当 数据 集 的 维 数 很 高 时 ， 机 器 学 习 问 题 就 会 面临 极 大 的 困难 。 以 下 是 高 维 数据 难以 处 
理 的 原因 。 








口 随 着 维度 的 增加 ， 特 征 的 数量 将 呈 指 数 级 增长 ， 最 终 会 导致 噪声 的 增加 。 
口 无 法 在 标准 实践 中 获得 足够 多 的 观察 值 来 泛 化 数据 集 。 








ui 




















对 维度 诅咒 的 简单 解释 就 是 组 合 爆炸 。 根 据 组 合 爆 炸 理 论 , 大 量变 量 的 集合 可 以 构建 巨大 的 
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组 合 。 例 如 , n 个 二 进 制 变量 的 可 能 组 合 数 是 0(2”) 个 。 因 此 , 在 高 维 空间 中 ,配置 项 数 几乎 是 不 





可 数 的 ， 并 和 远 远 大 于 样本 数量 ， 而 且 大 多 数 配 置 项 都 不 会 有 与 自身 相关 联 的 训练 样本 。 图 1-11 
的 图 示 ， 以 便 你 更 好 地 理解 。 





展示 了 一 个 类 似 现象 

















一 维 数据 ， 
> 10 个 状态 





二 维 数 据 : 
100 个 状态 < 





三 维 数据 : 
1000 个 状态 


75 











Chapados 的 文章 “Data Mining Algorithms for Actuarial Ratemaking” , 

















载 许 可 ) 


图 1-11 随 着 维 数 从 一 增加 到 三 ， 随 机 变量 的 数量 呈 指 数 级 增长 ( 图 片 来 源 于 Nicolas 


已 获得 转 


因此 , 这 种 情况 对 任何 机 器 学 习 模型 来 说 都 是 棘手 的 , 因为 训练 是 极其 困难 的 。 休 斯 效应 [15] 


指出 : 


“在 训练 样本 数量 固定 的 情况 下 ， 预 测 能 力 随 着 维度 的 增加 而 降低 。” 
因此 ， 随 着 解释 变量 数目 的 增加 ， 模 型 能 够 达到 的 精度 迅速 下 降 。 
为 了 应 对 这 种 情况 ， 我 们 需要 将 输入 系统 的 样本 数据 集 的 大 小 增加 到 与 场景 相符 合 的 程度 。 








然而 ， 由 于 数据 的 复 

















杂 性 


图 像 的 数据 集 也 是 不 够 用 的 。 
通过 自身 的 深层 网 络 配置 , 深度 学 习 在 一 定 程度 上 解决 了 这 个 问题 。 这 主要 归结 于 以 下 原因 。 


口 现在 , WRA 

















员 能 够 在 输入 训练 样本 之 前 重新 定义 网 络 结构 ， 并 以 此 来 管理 模型 


EE 


口 深度 卷 积 网 络 侧重 于 数据 的 高 级 特征 ， 而 忽略 底层 信息 ， 这 进一步 降低 了 特 行 





山 在 增加 ， 其 维 数 几乎 可 以 达到 1000。 对 于 这 种 情况 ， 即 使 拥有 数 亿 


的 复杂 性 。 
F 的 维度 。 








13 深度 学 习 











虽然 深度 学 习 网 络 已 经 提出 了 处 理 维度 诅咒 的 一 些 可 行 解决 方案 ， 但 还 不 足以 完全 解决 问 
题 。 在 最 近 的 超 深层 神经 网 络 的 研究 中 ,微软 提出 了 一 个 150 层 的 网 络 ， 从 而 使 得 参数 空间 变 得 
更 大 了 。 该 研究 小 组 甚至 进行 了 深度 几乎 达到 1000 层 的 深层 网 络 的 研究 。 但 由 于 模型 的 过 拟 合 ， 
其 最 终 效 果 并 不 理想 。 





























机 器 学 习 中 的 过 拟 合 : 过 度 训 练 模 型 ,进而 对 其 性 能 产生 负面 影响 ,这 种 现象 称 
为 模型 的 过 拟 合 。 当 模型 学 习 了 训练 数据 集 的 随机 波动 和 不 需要 的 噪声 时 , 这 种 
情况 就 会 发 生 。 这 些 现象 会 产生 不 好 的 后 果 : 模型 在 新 的 数据 集中 表现 较 差 ,并 

@ 对 其 泛 化 能 力 产生 不 利 影响 。 

机 器 学 习 中 的 欠 拟 合 : 这 是 指 模型 在 当前 数据 集 和 新 数据 集中 都 表现 较 差 。 这 类 
模型 是 不 适合 的 ， 在 数据 集 上 表现 不 佳 。 

在 图 1-11 的 一 维 示例 (顶部 ) 中 ， 因 为 只 有 10 个 感 兴趣 的 区 域 ， 所 以 学 习 算 法 进行 正确 的 
概括 并 不 是 一 项 艰巨 的 任务 。 然 而 ， 在 更 高 维度 的 三 维 示 例 (底部 ) 中 ， 模 型 需要 跟踪 所 有 
(10x10x10=1000 个 ) 感 兴 趣 的 区 域 ， 这 要 复杂 得 多 (对 模型 而 言 ， 这 几乎 是 一 个 不 可 能 完成 的 
任务 )。 这 就 是 维度 诅咒 中 最 简单 的 一 个 示例 。 

2. 梯度 消失 问题 

梯度 消失 问题 59 是 在 训练 人 工 神经 网 络 时 发 现 的 一 种 障碍 , 它 出 现在 基于 梯度 的 方法 中 , 如 
反 向 传播 。 在 理想 情况 下 ,这 一 难题 使 得 网 络 上 一 层 的 学 习 和 训练 变 得 非常 困难 。 当 深度 神经 网 
络 的 层 数 大 幅 增 加 时 ， 这 种 情况 会 变 得 更 加 糟糕 。 

通过 梯度 的 负 值 乘 以 小 标量 值 ( 0~1 )， 梯 度 下 降 算法 可 以 更 新 权 值 。 









































AHS, HAI 0: 


ij 





layer .__ layer _ oy 
W; Fri W; a owt 
ij 








在 上 述 等 式 中 , 重复 计算 梯度 直到 其 值 为 零 。 理 想 情况 下 ,通常 会 设置 一 些 超 参数 来 控制 模 
型 的 最 大 迭代 次 数 。 如 果 和 迭代 次 数 过 高 ,训练 的 持续 时 间 也 会 更 长 。 另 一 方面 ， 如 果 对 于 某 个 座 
度 神 经 网 络 来 说 ， 和 迭代 次 数 变 得 难以 察 党 ,那么 肯定 会 得 到 不 准确 的 结果 。 


在 梯度 消失 问题 中 , 与 前 层 的 参数 相 比 ， 网 络 输出 的 梯度 会 变 得 极 小 ， 从 而 导致 每 次 迭代 的 
权 值 不 会 有 任何 显著 的 变化 。 因 此 ， 即 使 前 层 的 参数 值 发 生 了 大 幅 变 化 ， 这 对 整体 输出 也 不 会 有 
显著 的 影响 。 这 个 问题 会 使 得 深度 神经 网 络 的 训练 变 得 不 可 行 ， 让 模型 的 预测 能 力 变 得 不 理想 。 
这 种 现象 就 称 为 梯度 消失 问题 。 这 会 导致 一 些 长 代价 函数 ， 如 图 1-12 所 示 。 















































图 1-12 平坦 的 梯度 与 长 代价 函数 的 图 像 





1-13 还 显示 了 具有 大 梯度 的 一 个 示例 ， 其 中 梯度 下 降 可 以 快速 收敛 。 














权 值 1 


























图 1-13 具有 大 梯度 的 代价 函数 的 图 像 ; 梯度 下 降 可 以 更 加 快速 地 收敛 
































梯度 消失 问题 是 深度 学 习 成 功 路 上 的 重大 挑战 , 但 现在 由 于 各 种 技术 的 出 现 , 一 定 程度 上 克 
服 了 这 个 问题 。1997 年 提出 的 长 短期 记忆 网 络 是 解决 这 个 问题 的 重大 突破 之 一 ， 详 细 介 绍 参见 
第 4 章 。 男 外 ,一些 研究 人 员 试 图 使 用 不 同 的 技术 来 解决 这 个 问题 ,其 中 包括 特征 生成 、 激 活 函 


3. 分 布 式 表征 


几乎 所 有 的 深度 网 络 都 基于 分 布 式 表征 这 一 概念 , 后 者 是 深度 学 习 算法 成 功 背 后 的 理论 优势 
的 核心 。 在 深度 学 习 的 背景 下 ,分布 式 表征 是 多 尺度 的 , 并 与 理论 化 学 和 物理 学 的 多 尺度 建 模 密 
切 相关 。 分 布 式 表征 背后 的 基本 思想 是 , 感知 特征 是 多 个 因素 共同 作用 的 结果 , 这些 因素 组 合 在 
一 起 以 产生 期 望 的 结果 。 日 常生 活 中 的 示例 可 能 是 人 类 的 大 脑 , 它 使 用 分 布 式 表征 来 辨别 周围 的 
物体 。 


人 工 神经 网 络 将 以 这 类 表征 方式 构建 , 以 便 拥有 代表 模型 所 需要 的 众多 特征 和 层次 。 该 模型 
用 相互 依赖 的 多 个 层 来 描述 数据 ( 如 语音 、 视 频 或 图 像 )， 其 中 每 个 层 负 责 描 述 不 同 尺度 级 别 的 
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数据 。 通 过 这 种 方式 ,表征 将 分 布 在 多 个 层 上 ， 涉 及 不 同 的 尺度 。 因 此 ， 这 种 表征 称 为 分 布 式 
表征 o 





分 布 式 表 征 本 质 上 是 密集 的 。 两 种 类 型 的 表征 之 间 遵 循 多 对 多 的 关系 。 一 方面 ， 
可 以 使 用 多 个 神经 元 来 表示 一 个 概念 ; 另 一 方面 ， 一 个 神经 元 描绘 了 多 个 概念 。 

















使 用 非 分 布 式 表征 的 传统 聚 类 算法 〈 如 最 近邻 算法 、 决 策 树 或 高 斯 混合 ) 都 需要 O(N) 个 参 
数 来 区 分 OW) 个 输入 区 域 。 在 某 个 时 间 点 ， 人 们 几乎 不 相信 有 任何 其 他 算法 能 够 表现 得 比 这 更 
好 。 然而 , 稀 玻 编码 、 受 限 玻 尔 效 曼 机 、 多 层 神 经 网 络 等 深度 网 络 可 以 用 O(N) 个 参数 来 区 分 O(29 
个 输入 区 域 (其 中 大 表示 稀 琉 表征 中 非 零 元 素 的 总 数 , 在 其 他 非 稀疏 受 限 玻 尔 效 曼 机 和 密集 表征 
中 f=N )。 


在 这 类 操作 中 , 要 么 在 输入 数据 的 不 同 部 分 应 用 相同 的 聚 类 操作 , 要 么 并 行 地 应 用 多 个 聚 类 
操作 。 这 种 对 分 布 式 表 征 的 概括 操作 称 为 多 重 聚 类 。 


使 用 分 布 式 表征 的 一 大 优势 源 于 在 多 个 样本 中 重用 一 个 参数 ,而 这 些 样本 不 一 定 要 相似 。 例 
W, 受 限 玻 尔 效 曼 机 在 这 种 场景 下 就 可 能 是 一 个 合适 的 示例 。 然 而 ,通过 局 部 泛 化 , 输入 空间 中 
的 非 相 同 区 域 仅 受 各 自私 有 参数 的 影响 。 


分 布 式 表 征 的 主要 优点 如 下 。 


口 数据 内 部 结构 的 表征 在 抗 干扰 与 优雅 降级 方面 是 健壮 的 。 
口 它们 有 助 于 概括 数据 间 的 概念 和 关系 ， 从 而 实现 推理 能 力 。 


图 1-14 展示 了 分 布 式 表征 的 一 个 现实 示例 。 










































































外 形 典型 的 面部 类 型 
El (特征 ) 


© 
© 






























| <> 











图 1-14 ”分 布 式 表征 如 何 帮 助 模型 区 分 图 像 中 各 种 类 型 的 表情 
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机 器 学 习 中 的 人 工 神 经 网 络 通常 被 许多 研究 人 员 称 为 新 一 代 神 经 网 络 。 大 多 数学 习 算 法 都 是 
人 工 构 建 的 , 以 便 系 统 能 够 准确 地 模仿 生物 大 脑 的 学 习 方 式 。 这 就 是 人 工 神经 网 络 这 个 名 称 的 由 
来 。 从 历史 上 看 ， 深 度 学 习 的 概念 起 源 于 人 工 神经 网 络 ， 前 者 的 实践 始 于 20 世纪 60 年 代 ， 甚 至 
更 早 。 随 着 深度 学 习 的 兴起 ， 人 工 神经 网 络 在 研究 领域 越 来 越 受 欢迎 。 














多 层 感知 机 (Multi-Layer Peceptron, MLP ) 或 深度 神经 网 络 ( 具有 多 个 隐藏 中 间 层 的 前 馈 
神经 网 络 ) 是 深度 结构 模型 的 良好 示例 。1965 年 ，Ivakhnenko 和 Lapa 发 布 了 第 一 个 流行 的 深度 
结构 模型 ， 采 用 了 监督 学 习 的 深度 前 馈 多 层 感知 机 071。 




















Alexey Ivakhnenko 致力 于 更 好 地 预测 河流 中 的 鱼 类 种 群 ，1971 年 ， 他 在 一 份 论文 中 采用 了 
数据 分 组 处 理 算法 ( group method of data handling algorithm, GMDH ), 该 算法 试图 曾 释 一 种 具有 
8 个 训练 层 的 深度 网 络 ， 该 论文 被 认为 是 20 世纪 最 受 欢迎 的 论文 之 一 1 中。 图 1-15 显示 了 具有 4 
个 输入 的 GMDH 网 络 。 
















输出 层 
(一 个 神经 元 ) 
第 三 隐藏 层 
第 二 隐藏 层 


输入 层 


第 一 隐藏 层 














图 1-15 GMDH 网 络 具 有 4 个 输入 (输入 向 量 x 的 分 量 ) 和 一 个 输出 y( 函数 的 估计 值 y=ftx) ) 





20 世纪 80 年 代 普 及 的 反 向 传播 (Backpropagation，BP ) 是 用 于 学 习 类 似 网 络 的 参数 的 一 种 
知名 算法 。 但 由 于 各 方面 的 原因 ， 具 有 多 个 隐藏 层 的 网 络 难以 处 理 ， 因 此 反 向 传播 算法 未 能 达到 
预期 的 高 度 &21。 此 外 ， 反 向 传播 学 习 使 用 基于 局 部 梯度 信息 的 梯度 下 降 算法 ， 这 些 操作 从 一 些 
随机 的 初始 数据 点 开始 。 随 着 网 络 传播 深度 的 增加 , 算法 往往 被 收集 在 一 些 不 需要 的 局 部 最 优 解 
中 ， 因 此 ， 结 果 通 常 并 不 理想 。 



































一 种 高 效 的 无 监督 学 习 算 法 很 好 地 解决 了 深度 结构 模型 的 最 优化 问题 , 该 算法 是 在 两 篇 论文 
中 提出 的 。 这 两 篇 论文 介绍 了 名 为 深度 信念 网 络 的 一 类 深度 生成 模型 。 








2006 年 ， 具 有 非 生成 、 非 概率 特征 的 两 种 无 监督 深度 模型 问世 ， 并 立即 成 为 了 研究 热点 。 
一 种 是 基于 能 量 的 无 监督 模型 m1, 另 一 种 是 带 有 训练 层 的 自动 编码 器 的 变 体 , 与 之 前 的 深度 信念 
网 络 训练 号 类似。 与 深度 信念 网 络 一 样 ， 这 两 种 算法 都 可 以 用 于 有 效 地 训练 深度 神经 网 络 。 


H 2006 年 以 来 ， 对 深度 学 习 的 研究 发 生 了 爆炸 式 增长 。 除 了 传统 的 浅 层 机 器 学 习 技 术 ， 该 
领域 持续 呈 指 数 级 增长 。 

基于 本 章 前 面 提 过 的 学 习 技巧 , 根据 所 使 用 的 技术 和 结构 , 深度 学 习 网 络 大 致 可 以 分 为 两 个 
组 别 。 
































1.4.1 深度 生成 或 无 监督 模型 


许多 深度 学 习 网 络 都 属于 这 一 类 ， 如 受 限 玻 尔 兹 曼 机 、 深 度 信 念 网 络 、 深 度 玻 尔 兹 曼 机 、 降 
品 自 动 编码 絮 等 。 其 中 的 大 多 数 可 以 通过 网 络 中 的 采样 产生 样本 ,而 其 他 的 网 络 Lt Sh ES PY 
络 等 ) 难以 采样 ， 因 此 在 本 质 上 不 具有 生成 的 能 力 。 


深度 玻 尔 兹 曼 机 握 -是 一 种 流行 的 深度 无 监督 模型 。 传 统 的 深度 玻 尔 效 曼 机 包含 许多 层 的 隐 
变量 , 但 同一 层 内 的 变量 间 没 有 连接 。 虽然 具有 更 简单 的 算法 , 但 传统 的 玻 尔 兹 曼 机 对 于 研究 来 
说 太 过 复杂 , 并 且 训练 速度 非常 缓慢 。 在 深度 玻 尔 效 曼 机 中 ,每 一 层 利 用 上 一 层 隐藏 特征 间 的 联 
系 获得 更 高 阶 复 杂 的 相关 性 。 现 实生 活 中 , 如 果 需 要 学 习 复 杂 的 内 部 表征 问题 ( 如 对 象 和 语言 识 
别 )， 那么 可 以 使 用 深度 玻 尔 兹 曼 机 来 轻松 解决 。 


具有 一 个 隐藏 层 的 深度 玻 尔 兹 曼 机 称 为 受 限 玻 尔 兹 曼 机 。 与 深度 玻 尔 兹 曼 机 类 似 , 受 限 玻 尔 
兹 曼 机 的 每 一 层 内 不 存在 连接 。 受 限 玻 尔 兹 曼 机 的 关键 属性 在 于 , 多 个 受 限 玻 尔 兹 曼 机 可 以 组 成 
一 个 层 合 结构 。 随 着 多 个 隐藏 层 的 构建 ， 当 前 受 限 玻 尔 兹 曼 机 的 输出 ( 激活 特征 ) 会 充当 下 一 层 
受 限 玻 尔 效 曼 机 的 输入 。 这 种 体系 结构 产生 了 一 种 不 同类 型 的 网 络 一 一 深度 信念 网 络 。 第 5 章 将 
详细 讨论 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 各 种 应 用 。 


深度 信念 网 络 的 一 个 主要 组 件 是 层 的 集合 , 它们 会 降低 网 络 深度 和 线性 时 间 复 杂 度 。 除了 通 
过 从 一 些 特定 的 初始 化 数据 点 开始 训练 ， 可 以 克服 反 向 传播 的 主要 缺点 〈 局 部 最 优 )， 深 度 信念 
网 络 还 具有 其 他 吸引 人 的 特征 ， 其 中 包括 如 下 几 个 。 


O 深度 信念 网 络 是 一 种 概率 生成 模型 。 

口 由 于 具有 数 亿 个 参数 ， 深 度 信念 网 络 通常 会 出 现 过 拟 合 问题 。 此 外 ， 由 于 其 数据 集 庞 大 ， 
深层 架构 经 常 遇 到 从 拟 合 的 问题 。 这 两 个 问题 都 可 以 在 训练 前 有 效 地 解决 。 

口 深度 信念 网 络 能 够 有 效 地 使 用 未 标记 的 数据 。 


和 积 网 络 (sum-product network, SPN ) 22 是 一 个 可 以 用 于 无 监督 ( 和 监督 ) 学 习 的 深度 
生成 网 络 , 可 以 将 其 视 为 一 个 有 向 无 环 图 ， 其 中 的 叶子 节点 是 观测 的 变量 ,内 部 节点 是 和 与 积 节 
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点 “和 ”节点 可 以 看 成 是 变量 在 集合 上 的 混合 ,“ 积 ”节点 构成 特征 层次 结构 。 使 用 期 望 -最 大 
化 算法 和 反 向 传播 算法 来 训练 和 积 网 络 。 学 习 和 积 网 络 的 主要 障碍 是 ， 随 着 训练 层次 的 加 深 ， 梯 
度 会 迅速 减弱 。 具 体 地 说 , 从 条 件 似 然 函 数 的 导数 生成 的 普通 深度 神经 网 络 的 标准 梯度 下 降 算法 
会 遇 到 很 大 困难 。 减 少 这 一 问题 的 解决 方案 是 ， 用 潜在 变量 的 最 可 能 状态 来 替代 不 重要 的 推理 ， 
并 通过 这 个 方法 来 传播 梯度 。Domingo 和 Gens 提出 了 对 小 规模 图 像 识别 的 一 种 特殊 结果 请 。 为 
了 更 好 地 理解 这 个 结果 ， 图 1-16 展示 了 和 积 网 络 的 一 个 示例 ， 它 显示 了 和 积 网 络 的 框图 。 




































































图 1-16 ”和 积 网 络 的 结构 




















循环 神经 网 络 是 另 一 种 流行 的 次 度 生成 网 络 ， 可 用 作 无 监督 (和 监督 ) 学 习 。 这 种 网 络 的 次 
度 直接 取决 于 输入 数据 序列 的 长 度 。 在 无 监督 的 循环 神经 网 络 模型 中 , 以 往 数据 的 样本 可 用 来 预 
测 未 来 的 数据 序列 。 在 处 理 序列 化 文本 或 语音 时 , 循环 神经 网 络 的 表现 非常 好 , 但 由 于 梯度 消失 
问题 ， 其 受 欢迎 程度 近来 有 所 下 降 n 站。Hessian-free 优化 6" 使 用 随机 曲率 估计 在 一 定 程度 上 克 
服 了 该 问题 。 最 近 ，Bengio | ASAI Sutskever55 提 出 了 不 同 的 变 体 来 训练 循环 神经 网 络 ， 其 性 
能 优 于 Hessian-free 优化 模型 。 第 4 章 将 进一步 前 明 循环 神经 网 络 。 


在 无 监督 深度 网 络 的 其 他 子 类 中 ,基于 能 量 的 深度 模型 大 多 是 已 知 的 结构 "深度 网 络 的 
无 监督 模型 的 典型 示例 是 深度 自动 编码 器 。 深 度 自动 编码 咒 的 大 多 数 变 体 在 本 质 上 还 是 生成 模 
型 ， 但 其 特性 和 实现 通常 彼此 不 同 。 典 型 示例 有 预测 稀 玻 编码 器 、 转 换 自 动 编码 咒 、 降 噪 自动 纺 
码 需 及 其 堆 县 式 版 本 等 。 第 6 章 将 对 自动 编码 器 进行 详细 说 明 。 








































































































1.4.2 ”深度 判别 模型 


监督 学 习 中 使 用 的 判别 技术 大 多 是 浅 层 结构 , 如 隐 马 尔 可 夫 模 型 “或 条 件 随 机 场 模型 。 然 
而 , 最 近 提出 了 一 种 具有 深度 结构 的 条 件 随 机 场 模型 ， 该 模型 可 将 较 低 层 的 输出 作为 较 高 层 的 输 
入 。 具 有 深度 结构 的 条 件 随 机 场 模 型 已 有 多 个 版 本 ， 并 已 成 功 运用 于 自然 语言 处 理 、 手 机 识别 、 
语言 识别 等 领域 。 虽 然 判 别 模型 对 深度 结构 来 说 是 成 功 的 ， 但 还 未 达到 预期 的 效果 。 


正如 上 一 节 中 提 过 的 ， 循 环 神经 网 络 已 用 于 无 监督 学 习 。 然 而 ,循环 神经 网 络 也 可 以 当 作 判 
别 模 型 ， 并 用 于 监督 学 习 。 在 这 种 情况 下 ， 和 输出 变 成 了 与 输入 数据 序列 相关 的 标签 序列 。 语 音 识 
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别 技术 在 很 久 以 前 就 开始 使 用 这 种 判别 循环 神经 网 络 模型 了 , 但 几乎 没有 成 功 的 先例 。 Ae 
使 用 隐 马 尔 可 夫 模 型 将 循环 神经 网 络 分 类 结果 模拟 成 标签 序列 , 但 由 于 一 些 原因 , 使 用 隐 马 尔 可 
夫 模 型 并 没有 充分 利用 循环 神经 网 络 的 全 部 功能 。 


最 近 , 有 人 为 循环 神经 网 络 开 发 了 一 些 其 他 的 方法 和 模型 , 其 基本 思想 是 将 循环 神经 网 络 的 
输出 视 为 一 系列 条 件 分 布 , 并 分 布 在 可 能 的 输入 序列 上 “1, 这 有 助 于 循环 神经 网 络 将 长 短期 记 
府 和 其 模型 以 进行 序列 分 类 。 这 种 方法 的 主要 好 处 是 ， 它 既 不 需要 对 训练 数据 集 进行 预 分 割 ， 
也 不 需要 对 输出 进行 后 处 理 。 数 据 集 的 分 割 基 本 上 巾 算法 自动 执行 , 并 且 可 以 导出 一 个 可 微 的 目 
标 函 数 来 优化 标签 序列 上 的 条 件 分 布 。 这 类 算法 广泛 应 用 于 手写 识别 中 。 


另 一 种 更 受 欢 迎 的 判别 深度 结构 是 卷 积 神经 网 络 。 在 卷 积 神经 网 络 中 ,每 个 模块 包含 一 个 卷 
积 层 和 一 个 池 化 层 。 为 了 形成 一 个 深度 模型 ,模块 通常 要 堆 莅 在 另 一 个 模块 之 上 , 或 者 其 顶部 要 
有 一 个 深度 神经 网 络 。 卷 积 层 有 助 于 权 值 的 共享 ， 而 池 化 层 隔 离 卷 积 的 输出 ， 从 而 对 前 一 层 数据 
率 进行 最 小 化 。 卷 积 神经 网 络 公 认 是 一 个 高 效 的 模型 , 特别 适用 于 图 像 识别 、 计 算 机 视觉 等 任务 。 
最 近 ， 随 着 对 卷 积 神经 网 络 设计 的 具体 修改 ， 事 实证 明 该 模型 在 语音 识别 中 同样 有 效 。 时 延 神经 
网 络 (time-delay neural network, TDNN ) 哺 扫 源 自 早 期 的 语音 识别 ， 是 一 类 特殊 的 卷 积 神经 网 
络 ， 也 可 以 认为 是 卷 积 神经 网 络 的 前 身 。 


在 这 类 模型 中 ， 权 值 共享 仅 限于 时 间 维度 ， 且 不 存在 池 化 层 。 第 3 章 将 深入 讨论 卷 积 神经 网 
络 的 概念 和 应 用 。 


深度 学 习 及 其 各 类 模型 有 着 广泛 的 应 用 。 许多 顶尖 的 技术 公司 ( 如 Facebook, 微软 、Google、 
Adobe, IBM 等 ) 都 在 使 用 深度 学 习 。 除 了 计算 机 科学 外 ， 深 度 学 习 也 为 其 他 的 科学 领域 做 出 了 


宝贵 的 贡献 。 


用 于 识别 对 象 的 当代 卷 积 神经 网 络 模型 已 经 对 视觉 处 理 有 了 深入 的 理解 , 甚至 神经 科学 家 也 
可 以 进一步 探索 视觉 处 理 。 深 度 学 习 还 提供 了 处 理 大 规模 数据 以 及 在 科学 领域 进行 预测 所 需要 的 
必要 工具 。 该 领域 在 预测 分 子 的 行为 以 便 增强 药物 研究 方面 也 非常 成 功 。 

总 而 言 之 ,深度 学 习 是 机 需 学 习 的 一 个 子 领域 。 由 于 广泛 的 适用 性 ， 机 噩 学 习 的 实用 性 和 普 
及 性 近年 来 极 大 地 增长 。 然 而, 为 了 进一步 改善 深度 学 习 并 探索 新 领域 , 未 来 几 年 将 充满 机 遇 和 
挑战 。 
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为 了 帮助 你 更 深入 地 了 解 深度 学 习 ,， 以 下 列 出 了 一 些 优秀 的 、 经 常 更 新 的 在 线 阅 


读 列表 。 
@ http://deeplearning.net/tutorial/ 


http://ufldl.stanford.edu/wiki/index.php/UFLDL_ Tutorial 
http://deeplearning.net/reading-list/ 








在 过 去 的 十 年 中 , 我 们 有 幸 见 证 了 许多 伟大 的 科学 家 和 从 事 人 工 智能 的 公司 在 深度 学 习 领 域 
的 伟大 发 明 。 深度 学 习 是 机 带 学 习 的 一 种 方法 , 近 几 年 来 , 它 的 实用 性 和 普及 性 呈现 出 巨大 的 增 
长 。 原 因 主要 在 于 它 能 够 处 理 具 有 高 维 数据 的 大 型 数据 集 ， 解 决 诸如 梯度 消失 问题 等 重大 问题 ， 
并 且 可 以 训练 更 深层 的 网 络 。 本 章 详 细 解 释 了 这 些 概念 ， 并 对 深度 学 习 的 各 种 算法 进行 了 分 类 ， 
后 续 章 节 将 详细 阐述 。 

下 一 章 将 介绍 大 数据 与 深度 学 习 的 关联 , 主要 关注 从 大 规模 数据 中 提取 有 价值 的 信息 时 , 深 
度 学 习 是 如 何 发 挥 重 要 作用 的 。 
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“除了 上 沉 ， 我 们 只 相信 数据 !” 
一 一 W.Edwards Deming 


在 数据 呈 指 数 级 增长 的 这 个 数字 世界 中 , 大 数据 和 深度 学 习 是 最 热门 的 两 个 拉 术 趋势 。 深度 
学 习 和 大 数据 是 数据 科学 领域 中 相互 关联 的 两 个 话题 ， 而 在 技术 发 展 方面 , 两 者 紧密 关联 且 同 样 
重要 。 


数字 数据 和 云 存 储 遵循 名 为 摩尔 定律 的 通用 定律 ， 该 定律 认为 世界 数据 每 两 年 会 翻 一 倍 ， 
而 存储 该 数据 的 成 本 却 大 致 以 相同 的 速率 下 降 。 这 些 丰 富 的 数据 产生 了 更 多 的 特征 和 真理 , 因此 ， 
为 了 从 中 提取 所 有 有 价值 的 信息 ， 我 们 应 当 创 建 更 好 的 深度 学 习 模 型 。 


数据 的 高 可 用 性 也 为 多 个 行业 带 来 了 巨大 机 遇 。 此 外 , 大 数据 及 其 分 析 为 数据 挖掘 、 数 据 应 
用 和 从 数据 中 提取 隐藏 信息 带 来 了 巨大 挑战 。 在 人 工 智 能 领域 ,深度 学 习 算 法 会 在 对 大 规模 数据 
的 学 习 过 程 中 产生 最 佳 输出 。 因 此 ， 随 着 数据 以 前 所 未 有 的 速度 增长 ,深度 学 习 在 提供 大 数据 分 
析 人 解决 方案 方面 也 起 着 至 关 重 要 的 作用 。 


本 章 将 深入 讲解 深度 学 习 模 型 在 大 数据 上 的 表现 , 并 揭示 相关 的 挑战 。 本 章 后 半 部 分 将 介绍 
Deeplearning4j， 它 是 一 个 开源 分 布 式 框架 ， 能 够 与 Hadoop 和 Spark 集成 ， 用 于 部 署 基 于 大 规模 
数据 的 深度 学 习 。 本 章 将 提供 一 些 示 例 来 展示 如 何 使 用 Deeplearning4j 实现 基本 的 深度 神经 网 络 ， 
以 及 其 与 Apache Spark 和 Hadoop YARN 的 集成 。 


本 章 涉 及 的 主题 如 下 : 


口 海量 数据 的 深度 学 习 

口 大 数据 深度 学 习 面 临 的 挑战 

口 分 布 式 深度 学 习 和 Hadoop 

O 深度 学 习 的 开源 分 布 式 框架 一 一 Deeplearning4 
口 在 Hadoop YARN 上 配置 Deeplearning4j 
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2.1 海量 数据 的 深度 学 习 


在 这 个 EB 数据 规模 时 代 ， 数 据 正 以 指数 级 速度 增长 。 出 于 各 种 目的 ， 许 多 组 织 和 研究 人 员 
以 不 同方 式 对 数据 的 快速 增长 进行 了 分 析 。 国 际 数据 公司 (International Data Corporation, IDC ) 
的 调查 显示 ， 互 联网 每 天 处 理 约 2PB ( 1PB=1024TB，1TB=1024GB ) 的 数据 501。2006 年 ， 数 字 
数据 的 规模 约 为 0.18ZB( 1ZB=1024EB ,1EB=1024PB ), 而 到 2011 年 ,这 一 规模 已 经 增加 到 1.8ZB。 
截至 2015 年 ,该 数字 已 经 达到 10ZB 的 规模 。 预 计 到 2020 年 ,全 世界 的 数据 量 将 增长 到 30~35ZB。 
该 数据 增长 的 时 间 线 如 图 2-1 所 示 。 在 数字 世界 中 ， 这 些 海量 数据 正式 称 为 大 数据 。 


“大 数据 世界 正在 兴起 。” 

















一 《经 济 学 人 》 2011 年 9 月 
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图 2-1 近 20 年 的 数据 增长 趋势 
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Facebook 有 2 亿 用 户 ， 近 21PB 数据 中 ， 而 美国 橡树 岭 国家 实验 室 的 Jaguar 超级 计算 机 拥 
有 超过 SPB 的 数据 。 这 些 存储 数据 增长 得 如 此 迅速 ， 因 此 在 2018—2020 年 可 能 会 使 用 EB 规模 
的 存储 系统 。 


数据 的 这 种 爆炸 式 增长 肯定 会 对 传统 的 数据 密集 型 计算 产生 直接 威胁 , 并 引出 使 用 分 布 式 和 
可 扩展 存储 架构 来 查询 和 分 析 大 规模 数据 的 需求 。 大 数据 的 一 般 思路 是 , 原始 数据 非常 复杂 、 混 
乱 ， 并 且 持续 增长 。 一 个 理想 的 大 数据 集 由 大 量 的 无 监督 原始 数据 和 少量 的 结构 化 /分 类 数据 组 
成 。 因 此 , 在 处 理 这 些 大 量 的 非 固 定 结构 化 数据 时 ,传统 的 数据 密集 型 计算 往往 会 失败 。 具 有 无 
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穷 多 样 性 的 大 数据 需要 复杂 的 方法 和 工具 , 以 提取 模式 并 分 析 大 规模 数据 。 大 数据 的 增长 主要 是 
由 现代 系统 计算 能 力 的 增长 及 低廉 的 数据 存储 成 本 促成 的 。 

大 数据 的 所 有 这 些 特征 可 以 分 为 4 个 维度 , 通常 称 为 4V: 数量 ( Volume )、 多样 性 ( Variety )、 
RE (Velocity) 和 真实 性 ( Veracity )。 图 2-2 以 4V 的 形式 展示 了 大 数据 的 不 同 特 征 。 
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图 2-2 大 数据 4V 的 视觉 表示 





在 当前 的 数据 密集 型 技术 时 代 , 收集 和 获取 数据 的 速度 与 大 数据 的 其 他 参数 ( 即 数 量 和 多 样 
性 ) 同样 重要 。 随 着 数据 的 生成 ,如果 未 能 及 时 收集 和 分 析 数 据 ， 那 么 重要 数据 就 会 面临 巨大 的 
丢失 风险 。 虽然 可 以 选择 将 快速 转移 的 数据 保留 在 大 容量 存储 中 以 便 后 续 再 批量 处 理 , 但 是 处 理 
这 种 高 速 数 据 的 真正 重点 在 于 将 原始 数据 转换 成 结构 化 和 可 用 格式 的 速度 。 具体 来 说 , 如果 数 据 
没有 立即 保留 下 来 或 进行 系统 的 处 理 , 那么 飞机 票 价 、 酒店 房价 或 蘑 些 电子 商务 产品 的 价格 等 时 
间 敏 感 信息 就 会 过 时 。 大 数据 的 真实 性 这 一 参数 关系 到 数据 分 析 结 果 的 准确 性 。 随 着 数据 变 得 越 
来 越 复杂 ， 保 持 对 大 数据 隐藏 信息 的 信任 将 是 一 大 挑战 。 


为 了 提取 和 分 析 这 种 复杂 数据 ,我 们 需要 一 个 更 好 的 、 精 心 规划 的 模型 。 理 想 情况 下 ,与 处 
理 少量 数据 相 比 ,模型 应 该 能 够 更 好 地 处 理 大 数据 。 然 而 ,情况 并 非 总 是 如 此 。 接 下 来 通过 一 个 
示例 来 进行 更 深入 的 探讨 。 

如 图 2-3 所 示 ， 使 用 小 型 数据 集 时 ， 最 佳 算法 的 性 能 比 最 差 算法 的 性 能 好 n%。 然 而 ， 随 着 
数据 集 规模 的 增加 ( 大 数据 ), 性 能 也 会 呈 指 数 级 增长 到 k%。 这 种 迹象 也 可 以 在 中 中 找到 ,它们 
清楚 地 表明 了 大 型 训练 数据 集 对 模型 性 能 的 影响 。 然而, 使 用 最 简单 的 模型 时 ， 只 有 大 数据 集 才 
能 达到 最 佳 性 能 ， 这 种 观点 是 完全 错误 的 。 
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图 2-3 不 同类 型 算法 的 精度 百分比 随 数据 集 大 小 的 变化 





























从 参考 文献 [53] 中 可 以 看 出 ,算法 1 是 朴素 贝 叶 斯 模型 ， 算 法 2 是 基于 内 存 的 模型 ， 算 法 3 
是 Winnow 算法 。 图 2-3 显示 ， 当 使 用 小 型 数据 集 时 ，Winnow 算法 的 性 能 要 低 于 基于 内 存 的 模 
型 ;而 在 处 理 大 数据 集 时 ， 朴 素 贝 叶 斯 模型 和 Winnow 算法 的 性 能 比 基 于 内 存 的 模型 好 。 因 此 ， 
观察 图 2-3 很 难 推断 出 哪个 简单 模型 在 大 数据 集 环境 中 是 较 优 的 。 对 于 使 用 大 数据 集 时 基于 内 存 
的 模型 的 性 能 相对 较 差 ,一 种 直观 的 解释 是 ， 由 于 需要 等 待 将 大 量 数据 加 载 到 内 存 , 算法 要 消耗 
很 多 时 间 。 这 纯粹 是 与 内 存 相关 的 问题 ， 只 使 用 大 数据 是 不 能 解决 问题 的 。 因 此 ,影响 性 能 的 主 
要 因素 应 该 是 模型 的 复杂 程度 ， 而 深度 学 习 模 型 就 发 挥 了 作用 。 








































































































i) 即使 有 大 数据 ， 思 维 狭 隘 也 不 会 有 进步 ! 大 数据 需要 思维 突破 人 |。 


深度 学 习 与 大 数据 形成 鲜明 对 比 。 行业 中 的 各 种 产品 已 经 成 功 应 用 了 深度 学 习 , 而 且 各 类 研 
究 人 员 也 通过 大 规模 数字 数据 广泛 应 用 了 深度 学 习 。Facebook、 苹 果 、Google 等 知名 科技 公司 
每 天 都 会 收集 和 分 析 大 量 数据 ， 并 且 在 过 去 儿 年 中 在 各 种 深度 学 习 相 关 的 项 目 中 取得 了 不 俗 的 
进展 。 


Google 在 大 量 非 结构 化 数据 上 部 署 了 深度 学 习 算 法 ， 这 些 数据 的 来 源 包括 Google 街景 、 
像 搜 索引 擎 Google 翻译 和 Android 语音 识别 等 。 


苹果 公司 的 Siri 是 iPhone 的 虚拟 个 人 助理 , 提供 了 大 量 服务 ,如 体育 新 闻 、 天 气 报告 、 用 户 
问答 等 。Siri 整个 应 用 都 是 基于 深度 学 习 的 , 它 收集 来 自 不 同 苹果 服务 的 数据 并 获得 其 智能 授权 。 
微软 和 IBM 等 其 他 企业 也 以 深度 学 习 为 主要 领域 来 处 理 大 量 的 非 结构 化 数据 。IBM 类 似 人 脑 的 
计算 机 Watson 和 微软 的 Bing 搜索 引擎 也 是 主要 使 用 深度 学 习 技 术 来 利用 大 数据 的 。 
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目前 的 深度 学 习 架 构 包 括 数 百 万 其 至 数 十 亿 的 数据 点 。 此 外 , 数据 增长 的 规模 阻止 了 模型 的 
过 拟 合 ， 计 算 能 力 的 快速 增长 也 使 得 先进 模型 的 训练 变 得 更 加 容易 。 


表 2-1 展示 了 近期 的 研究 是 如 何 应 用 大 数据 和 流行 的 深度 学 习 模型 从 数据 中 充分 提取 信息 的 。 
表 2-1 大 型 深度 学 习 模 型 的 最 新 研究 进展 部 分 信息 来 源 于 参考 文献 [55]) 


































































































模 型 计算 能 数据 集 平均 运行 时 间 
卷 积 神经 网 络 5 两 个 NVIDIA GTX 580 3GB GPU 对 由 120 万 张 高 分 辩 率 图 片 构成 的 5~6 天 
训练 集 进行 约 90 次 的 循环 
深度 信念 网 络 中 ] NVIDIA GTX 280 1GB GPU 100 万 张 图 片 将 近 1 天 
稀 琉 自动 编码 器 [9 1000 个 包含 16 000 个 核心 的 CPU 1000 万 张 200x200 像素 的 图 片 将 近 3 天 

















借助 分 层 学 习 方法 , 深度 学 习 算 法 可 以 从 输入 的 原始 数据 中 提取 有 意义 的 通用 表征 。 一 般 来 
说 , 在 更 高 层次 上 , 更 复杂 和 抽象 的 数据 表征 是 从 先前 的 层 和 多 层 学 习 模 型 的 抽象 水 平 稍 低 的 数 
据 中 学 习 的 。 虽 然 深 度 学 习 也 可 以 从 大 量 的 标记 (分 类 ) 数据 中 学 习 ， 但 如 果 可 以 从 未 标记 /未 
分 类 的 数据 中 学 习 , 那么 这 些 模 型 看 起 来 会 更 有 吸引 力 5 9 , 从 而 更 有 助 于 生成 大 量 非 结构 化 数据 
的 一 些 有 意义 的 模式 和 表征 。 


在 处 理 大 规模 无 监督 数据 时 , 深度 学 习 算 法 可 以 比 浅 层 学 习 架 构 更 好 地 提取 数据 点 之 间 的 通 
用 模式 和 关系 。 以 下 是 接受 大 规模 未 标记 数据 训练 时 ， 深度 学 习 算 法 的 儿 个 主要 特征 。 
O 从 抽象 和 表征 的 较 高 层次 来 看 ， 可 以 从 深度 学 习 模型 中 获得 大 数据 的 语义 和 关联 性 知识 。 
口 即使 是 一 个 简单 的 线性 模型 ， 也 可 以 有 效 地 从 大 型 数据 集 极其 复杂 和 抽象 的 表征 中 获得 















































知识 。 
O 来 自 无 监督 数据 的 各 种 数据 表征 为 学 习 其 他 数据 类 型 ( 如 文本 、 音 频 、 视 频 、 图 像 等 ) 
打开 了 大 门 。 


因此 ， 可 以 肯定 的 是 ， 随 着 GPU ( 图 形 处 理 单元 ) 处 理 能 力 的 增强 与 容量 的 提升 ， 深 度 学 
习 将 成 为 大 数据 情感 分 析 、 预 测 分 析 等 的 重要 组 成 部 分 。 本 章 不 是 要 全 面 介 绍 大 数据 ， 而 是 想 要 
探讨 大 数据 与 深度 学 习 之 间 的 关系 。 接 下 来 将 介绍 深度 学 习 的 关键 概念 、 应 用 和 挑战 ,同时 处 理 
大 规模 的 未 分 类 数据 。 








2.2 大 数据 深度 学 习 面 临 的 挑战 


大 数据 的 潜力 值得 关注 。 然 而 ,要 想 充 分 提取 有 价值 的 信息 ,还 需要 创新 的 、 实 用 的 算法 来 
解决 相关 的 技术 问题 。 例 如 ， 为 了 训练 模型 ， 大 多 数 的 传统 机 器 学 习 算 法 将 数据 存储 在 内 存 中 。 
日 如 果 数 据 量 庞 大 ,这 种 方法 肯定 是 不 可 行 的 ,因为 系统 可 能 会 耗 尽 内 存 。 为 了 克服 所 有 这 些 柯 
手 的 问题 ， 并 通过 深度 学 习 技 术 从 大 数据 中 挖掘 出 有 用 信息 ， 我 们 迫切 需要 头脑 风暴 。 
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前 文中 说 过 , 大 规模 深度 学 习 在 过 去 十 年 取得 了 很 多 成 就 , 但 这 一 领域 还 处 于 不 断 发 展 的 阶 
段 。 大 数据 正在 不 断 提 高 其 4V 的 限制 。 因 此 ， 为 了 解决 这 些 问 题 ， 模 型 还 需要 进行 更 多 改进 。 





2.2.1 海量 数据 带 来 的 挑战 〈 第 一 个 V) 


海量 数据 给 深度 学 习 带 来 了 巨大 挑战 。 大 数据 具有 非常 高 的 维度 〈 属性 )、 大 量 的 示例 〈 输 
入 ) 和 类 型 繁多 的 分 类 ( 输出 )， 因 此 通常 会 增加 模型 的 复杂 度 以 及 算法 的 运行 时 间 复 杂 度 。 海 
量 数据 使 得 使 用 集中 式 存储 及 其 有 限 的 处 理 能 力 来 训练 深度 学 习 算 法 几乎 不 可 能 。 为 了 给 这 个 挑 
战 提供 一 个 缓冲 ,在 海量 数据 的 推动 下 ,应 该 使 用 具有 并 行 服务 器 的 分 布 式 框架 。 升级 后 的 深度 
网 络 模型 已 经 开始 使 用 CPU 和 GPU 集群 来 提高 训练 速度 ， 且 不 会 影响 算法 的 准确 性 。 为 实现 模 
型 并 行 和 数据 并 行 ， 各 种 新 策略 已 经 形成 。 


在 这 些 类 型 中 , 模型 或 数据 被 分 割 成 块 , 以 便 与 内 存 中 的 数据 相 匹 配 , 然后 分 布 到 各 个 节点 ， 
进行 向 前 和 向 后 的 传播 中 。Deeplearning4j 是 一 种 基于 Java 的 、 用 于 深度 学 习 的 分 布 式 工具 ， 为 
将 数据 分 布 到 各 个 节点 而 使 用 数据 并 行 性 ， 我 们 将 在 下 一 节 中 对 此 进行 说 明 。 


数据 量 庞大 总 是 与 噪声 标签 和 数据 不 完整 相关 ， 这 为 大 规模 深度 学 习 的 训练 带 来 了 重大 挑 
战 。 大 数据 在 很 大 比例 上 是 由 未 标记 或 非 结构 化 数据 组 成 的 ， 其 中 噪声 标签 是 最 主要 的 。 要 解决 
这 个 问题 ， 需 要 对 数据 集 进 行人 工 处 理 。 例 如 ， 在 过 去 一 年 内 ， 所 有 搜索 引擎 都 用 于 收集 数据 。 
需要 对 这 些 数据 进行 某 种 过 滤 , 尤其 需要 去 除 元 余数 据 和 低 价值 数据 。 先 进 的 深度 学 习 方 法 对 处 
理 这 种 元 余 的 噪声 数据 来 说 至 关 重 要 。 此 外 ,相关 的 算法 应 该 能 够 容忍 这 些 混乱 的 数据 集 。 还 可 
以 应 用 某 种 更 有 效 的 代价 函数 和 更 新 的 训练 策略 ， 以 充分 克服 噪声 标签 的 影响 。 此 外 , 半 监 督学 
习 F ”有 助 于 强化 与 这 种 噪声 数据 相关 的 解决 方案 。 




























































































2.2.2 数据 多 样 性 带 来 的 挑战 〈 第 二 个 V) 


多 样 性 是 大 数据 的 第 二 个 维度 , 它 代表 了 具有 不 同 分 布 和 多 种 来 源 的 所 有 类 型 的 格式 。 呈 指 
数 级 增长 的 数据 来 源 众 多 ， 其 中 包括 大 量 音 频 流 、 图 像 、 视 频 、 动 画 、 图 形 ， 以 及 来 自 不 同日 志 
文件 的 非 结构 化 文本 。 这 些 数据 类 型 具有 不 同 的 特征 和 表现 。 数 据 集成 可 能 是 处 理 这 种 情况 的 唯 
一 方法 。 如 第 1 章 所 述 ， 深 度 学 习 能 够 从 结构 化 / 非 结构 化 数据 中 表征 学 习 。 深 度 学 习 能 够 以 分 层 
的 方式 执行 无 监督 学 习 , 分 层 的 方式 是 一 次 执行 一 个 层次 的 训练 , 且 较 高 层次 的 特征 由 直接 下 级 
来 定义 。 深度 学 习 的 这 个 特性 可 以 用 于 解决 数据 集成 问题 。 自 然 解决 方案 可 以 是 从 每 个 单独 的 数 
据 源 中 学 习 数 据 表征 ， 然 后 将 学 到 的 特征 集成 到 后 续 层 次 。 


已 有 实验 (9 成功 证 明 ， 深 度 学 习 可 以 很 容易 地 应 用 于 异 构 数据 源 ， 以 显著 提高 系统 性 能 。 
然而 ,深度 学 习 仍 有 许多 悬而未决 的 问题 。 目 前 ， 大 多 数 的 深度 学 习 模 型 主要 是 在 双 模 式 ( 只 有 
两 种 来 源 的 数据 ) 上 进行 测试 , 但 在 处 理 多 模式 时 ， 是否 可 以 提高 系统 性 能 呢 ? 多 个 数据 来 源 的 
言 息 可 能 相互 冲突 。 这 种 情况 下 , 模型 如 何以 富有 成 效 的 方式 消除 冲突 并 整合 数据 呢 ? 考虑 到 深 
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度 学 习 能 够 学 习 中 间 表 征 以 及 与 数据 多 样 性 相关 的 潜在 因素 , 它 似乎 非常 适用 于 整合 具有 多 种 模 
式 的 不 同 来 源 的 数据 。 





2.2.3 AGRARNE RA (BET V) 


数据 的 极速 增长 对 深度 学 习 技 术 造 成 了 巨大 挑战 。 对 于 数据 分 析 而 言 , 极速 创建 的 数据 也 应 
该 得 到 及 时 的 处 理 。 在 线 学 习 是 学 习 高 速 数 据 的 一 个 解决 方案 。 然 而 ,在线 学 习 使 用 顺序 学 
习 策略 ， 即 整个 数据 集 应 保存 在 内 存 中 , 这 对 传统 机 器 来 说 非常 困难 。 虽 然 已 经 为 在 线 学 习 修改 
了 传统 神经 网 络 "… ,但 在 这 个 领域 深度 学 习 仍 然 有 巨大 的 进步 空间 。 作 为 在 线 学 习 的 蔡 代 方法 ， 
随机 梯度 下 降 法 ! ”也 同样 适用 于 深度 学 习 。 在 这 种 类 型 中 , 一 个 具有 已 知 标签 的 训练 样本 会 输 
入 到 下 一 个 标签 ， 以 更 新 模型 参数 。 此 外 , 为 了 加 快 学 习 速 度 ， 也 可 以 在 小 批量 处 理 的 基础 上 进 
行 更 新 !'”。 这 个 小 批量 可 以 在 运行 时 间 和 计算 机 内 存 之 间 提 供 良好 的 平衡 。 下 一 节 将 阐释 为 什么 
小 批量 数据 对 分 布 式 深度 学 习 来 说 最 为 重要 。 


与 数据 的 这 种 高 速 相关 的 另 一 个 更 大 的 挑战 是 , 这 些 数据 在 本 质 上 是 极其 多 变 的 。 随 着 时 间 
的 推移 ,数据 的 分 配 过 于 频繁 。 理想 情 况 下 ， 随 时 间 变 化 的 数据 被 分 割 成 从 较 小 时 间 段 内 提取 的 
小 块 。 基 本 思想 是 , 数据 在 一 段 时 间 内 保持 稳定 ， 并 具有 一 定 程度 的 相关 性 。 因 此 ， 大 数据 
的 次 度 学 习 算 法 应 该 具有 将 数据 作为 流 来 学 习 的 特征 。 可 以 从 这 些 非 平稳 数据 中 学 习 的 算法 对 深 
度 学 习 来 说 是 至 关 重 要 的 。 


































































































2.24 ”数据 真实 性 带 来 的 挑战 (第 四 个 V) 


虽然 与 大 数据 的 其 他 三 个 维度 同等 重要 , 但 数据 的 真实 性 、 不 准确 性 或 不 确定 性 有 了 时 会 被 忽 
略 。 由 于 大 数据 种 类 繁多 且 快 速 增长 ,任何 组 织 不 能 再 依靠 传统 模型 来 衡量 数据 的 准确 性 。 根 据 
EX, 非 结构 化 数据 包含 大 量 不 精确 和 不 确定 的 数据 。 例 如 , 社交 媒体 的 数据 本 质 上 是 非常 不 确 
定 的 。 虽 然 一 些 工 具 可 以 自动 化 进行 数据 规范 化 和 清理 ， 但 大 都 还 处 于 早期 阶段 。 











2.3 分布 式 深度 学 习 和 Hadoop 


本 章 前 两 节 已 经 深入 探讨 了 深度 学 习 与 大 数据 的 关系 能 够 为 研究 领域 带 来 重大 变化 的 原因 。 
另外 , 一 个 集中 的 系统 并 不 会 随时 间 的 推移 明显 改善 这 种 关系 。 因 此 ， 跨 服务 咒 的 深度 学 习 网 络 
的 分 布 已 经 成 为 当前 深度 学 习 实践 者 的 主要 目标 。 然 而 , 在 分 布 式 环境 中 处 理 大 数据 总 会 面临 一 
些 挑战 。 上 一 节 已 经 对 大 部 分 挑战 进行 了 深入 的 讲解 ， 其 中 包括 处 理 更 高 维度 的 数据 、 具 有 很 多 
特征 的 数据 、 可 用 于 存储 的 内 存量 、 处 理 海量 大 数据 集 等 。 此 外 ， 大 数据 集 对 CPU 和 内 存 具 有 
很 高 的 计算 资源 需求 。 因 此 , 缩短 处 理 时 间 已 成 为 分 布 式 深度 学 习 的 一 个 非常 重要 的 准则 。 分 布 
式 深 度 学 习 的 核心 和 主要 挑战 如 下 。 


口 如 何 将 数据 集 的 块 保留 在 节点 的 主 内 存 中 ? 
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口 如 何 保持 数据 块 之 间 的 协调 ， 以 便 以 后 一 起 移动 ， 从 而 获得 最 终结 果 ? 
口 如 何 让 分 布 式 和 并 行 处 理 安排 并 协调 得 极其 合理 ? 
口 如 何 跨 数 据 集 实现 协调 的 搜索 ， 以 实现 高 性 能 ? 


使 用 大 数据 集 的 分 布 式 深度 学 习 的 方式 有 很 多 。 然 而 ， 当 我 们 谈论 大 数据 时 , 在 过 去 5 年 中 
为 应 对 大 部 分 挑战 作出 巨大 贡献 的 框架 是 Hadoop 框架 ” ”1。Hadoop 无 疑 是 最 受 欢 迎 且 使 用 最 广 
泛 的 框架 ， 它 允许 并 行 和 分 布 式 处 理 。 与 其 他 的 传统 框架 相 比 ，Hadoop 可 以 更 高 效 地 存储 和 处 
理 海量 数据 。 包 括 Google, Facebook 在 内 的 几乎 所 有 主要 的 技术 公司 都 在 使 用 Hadoop, ， 从 而 以 
高 级 的 方式 来 部 署 和 处 理 数据 。Google 设计 的 使 用 海量 数据 的 大 部 分 软件 都 会 用 到 Hadoop。 
Hadoop 的 主要 优势 是 可 以 在 数 千 台 服 务 器 上 存储 和 处 理 海量 数据 ， 且 得 到 组 织 良好 的 结果 。 
根据 对 深度 学 习 的 一 般 理解 , 我们 认为 深度 学 习 确 实 需要 这 种 分 布 式 计算 能 力 , 以 根据 输入 数据 
生成 一 些 令 人 惊叹 的 结果 。 大 数据 集 可 以 分 解 为 多 个 块 , 并 分 布 在 多 个 商业 硬件 上 以 进行 并 行 训 
练 。 此 外 ， 深 度 神经 网 络 的 整个 阶段 可 以 划分 为 多 个 子 任务 ， 然 后 可 以 并 行 处 理 这 些 子 任务 。 


Hadoop 已 成 为 所 有 数据 池 的 融合 点 。 将 深度 学 习 转 移 到 数据 ， 这 一 需求 已 存在 
于 Hadoop 中 ， 并 且 已 经 变 得 很 典型 了 。 




































































Hadoop 基于 移动 计算 比 移动 数据 便宜 这 一 概念 进行 操作 。Hadoop 允许 跨 商 业 服 务 器 集 
群 进行 大 规模 数据 集 的 分 布 式 处 理 。 它 还 提供 了 有 效 的 负载 平衡 , 具有 非常 高 的 容错 能 力 , 并 且 
具有 极 高 的 水 平 伸缩 能 力 。 它 可 以 检测 和 容忍 应 用 层 中 的 故障 ,因此 适合 在 商业 硬件 上 运行 。 为 
了 实现 数据 的 高 可 用 性 ,Hadoop 的 复制 因子 默认 为 3 ,每 个 块 的 副本 放 在 另外 两 台独 立 的 机 器 上 。 
因此 ,如 果 一 个 节点 出 现 故 障 , 则 可 以 从 其 他 两 个 节点 立即 进行 恢复 。 根 据 数据 的 价值 和 数据 的 
其 他 相关 要 求 ， 可 以 轻松 地 增加 Hadoop 的 复制 因子 。 


因为 最 初 主要 用 于 完成 批 处 理 任务 ， 所 以 Hadoop 主要 适用 于 深度 学 习 网 络 ， 后 者 的 主要 任 
务 是 查找 大 规模 数据 的 分 类 。 学 习 如 何 进行 数据 分 类 的 特征 选择 主要 是 在 大 规模 数据 集 上 进行 的 。 


Hadoop 易于 配置 ， 可 以 根据 用 户 需 求 轻松 地 进行 优化 。 例 如 ， 如 果 用 户 想 要 保留 更 多 的 数 
据 副 本 以 获得 更 好 的 可 靠 性 ， 那 么 可 以 增加 复制 因子 。 然 而 ， 副 本 数量 的 增加 会 增加 存储 需求 。 
这 里 不 再 对 数据 的 特性 和 配置 进行 更 多 说 明 , 接 下 来 主要 讨论 将 在 分 布 式 深度 神经 网 络 中 广泛 使 
用 的 Hadoop 部 分 。 


在 Hadoop 的 新 版 本 中 ,本 书 主要 使 用 的 部 分 是 HDFS( Hadoop Distributed File System , Hadoop 
分 布 式 文件 系统 ) Map-Reduce 以 及 YARN( Yet Another Resource Negotiator, 另 一 种 资源 协调 者 )。 
YARN 已 经 在 很 大 程度 上 主导 了 Hadoop 的 Map-Reduce ( 2.3.1 节 将 对 此 进行 解释 )。 目 前 , YARN 
的 责任 是 将 任务 分 配给 Hadoop 的 Data 节点 (数据 服务 器 )。 另 一 方面 ，HDFS 是 一 个 分 布 式 文 
件 系统 ， 分 布 在 名 为 NameNode 的 集中 式 元 数据 服务 器 下 的 所 有 Data 节点 上 。 为 了 实现 高 可 用 
性 ， 更 高 版 本 的 Hadoop 框架 集成 了 二 级 NameNode， 其 目的 是 在 某 些 检查 点 后 从 主 NameNode 
获取 元 数据 的 副本 。 
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2.3.1 Map-Reduce 


Map-Reduce 范式 中 是 Google 于 2004 年 开发 的 一 种 分 布 式 编程 模型 ， 它 与 在 机 器 集群 上 使 用 
并 行 和 分 布 式 算法 处 理 大 数据 集 相关 联 。 整 个 Map-Reduce 应 用 对 大 规模 数据 集 来 说 都 是 很 有 用 的 。 
Map-Reduce 有 两 个 主要 组 件 , 分 别 是 Map 和 Reduce, 还 包括 一 些 中 间 阶 段 , 如 混 洗 、 排 序 和 分 区 。 
在 Map 阶段 ， 大 型 输入 作业 被 分 解 为 较 小 的 作业 ， 每 个 作业 分 配 到 不 同 的 核心 。 接 着 在 这 些 机 器 
上 的 每 个 小 任务 上 执行 操作 。Reduce 阶段 将 所 有 分 散 和 转换 后 的 输出 放 在 一 个 单独 的 数据 集中 。 


本 章 不 会 详细 讲解 Map-Reduce 的 概念 ， 如 果 感 兴趣 ， 你 可 以 通过 参考 文献 [83] 来 深入 了 解 。 
























































2.3.2 3&1 Map-Reduce 


深度 学 习 算 法 在 本 质 上 是 迭代 的 ， 即 模型 从 优化 算法 中 学 习 , 经 过 多 个 步骤 让 误差 最 小 。 对 
于 这 些 类 型 的 模型 ，Map-Reduce 应 用 程序 似乎 不 如 在 其 他 用 例 中 那样 高 效 。 


迭代 Map-Reduce 是 下 一 代 的 YARN 框架 (与 传统 的 Map-Reduce 不 同 )， 仅 通过 一 次 
Map-Reduce 即 可 对 数据 进行 多 次 迭代 。 虽 然 迭 代 Map-Reduce 和 Map-Reduce 的 架构 在 设计 上 是 
不 同 的 ， 但 在 一 定 高 度 上 了 人 解 它们 的 架构 还 是 很 简单 的 。 迭 代 Map-Reduce 只 不 过 是 一 个 
Map-Reduce 操作 序列 , 其 中 第 一 个 Map-Reduce 操作 的 输出 会 成 为 下 一 个 操作 的 输入 , 以 此 类 推 。 
在 深度 学 习 模型 中 , Map 阶段 将 特定 迭代 的 所 有 操作 放置 在 分 布 式 系统 的 每 个 节点 上 , 然后 将 大 
量 输 入 数据 集 分 发 到 集群 中 的 所 有 计算 机 。 模 型 的 训练 是 在 集群 的 每 个 节点 上 执行 的 。 

在 将 聚合 的 新 模型 发 送 回 每 台 机 器 前 , Reduce 阶段 将 收集 Map 阶段 的 所 有 输出 , 并 计算 参数 的 
FS. TER Reduce 算法 会 反复 迭代 相同 的 操作 ， 直 到 学 习 过 程 完 成 ， 且 错误 最 小 化 到 几乎 为 零 。 

2-4 比较 了 两 种 方法 的 高 级 功能 。 左 图 显示 了 Map-Reduce 的 框图 ,右边 是 迭代 Map-Reduce 


的 特写 。 每 个 “处 理 器 "都 是 一 个 工作 的 深度 网 络 ,正在 从 较 大 数据 集 的 小 块 中 学 习 。 在 “Superstep” 
阶段 ， 参 数 的 平均 值 在 整个 模型 被 重新 分 配 到 整个 集群 前 完成 ， 如 图 2-4 所 示 。 
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Super step 1 
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Super step 2 




















MapReduce VS. 并 行 迭代 








图 2-4 Map-Reduce 和 并 行 迭 代 Reduce 的 功能 差异 
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2.3.3 YARN 


YARN 的 主要 作用 是 将 作业 调度 和 资源 管理 从 数据 处 理 中 分 离 出 来 。 因 此 ， 数 据 可 以 通过 
Map-Reduce 批 处 理 作 业 继 续 在 系统 中 并 行 地 进行 处 理 。YARN 有 一 个 中 央 资 源 管理 恬 ， 主 要 根 
据 需 要 管理 Hadoop RAT. TS Hla CBRE TAR) 负责 管理 和 监视 集群 的 各 个 节点 的 








处 理 。 该 过 程 只 由 ApplicationMaster 控制 ， 它 监视 来 自 中 央 资 源 管理 器 的 资源 ， 并 与 节点 管理 器 





一 同 监视 和 执行 任务 。 图 2-5 展示 了 YARN 的 架构 。 
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YARN- 另 一 种 资源 协调 者 











2-5 YARN 高 级 架构 











Hadoop 的 所 有 这 些 组 件 主要 用 于 分 布 式 深度 学 习 ， 以 克服 前 面 提 到 的 所 有 挑战 。 接 下 来 将 


展示 为 提升 分 布 式 深度 学 习性 能 所 需 满足 的 标准 。 


2.3.4 ”分 布 式 深度 学 习 设计 的 重要 特征 
分 布 式 深度 学 习 设 计 的 重要 特征 如 下 。 








1. 小 批量 处 理 。 在 分 布 式 深度 学 习 中 , 网 络 必须 并 行 地 快速 获取 和 处 理 数据 。 为 了 更 精确 地 





处 理 和 提供 结果 ， 集 群 的 每 个 节点 应 该 一 次 接收 约 10 个 元 素 的 小 块 数据 。 





例如 , 如果 YARN 的 主 节 点 正在 为 200GB 的 大 数据 集 协调 20 个 工作 者 , 那么 主 节点 会 将 数 
据 集 分 为 20 个 10GB 的 小 批量 数据 ， 从 而 为 每 个 工作 者 分 配 一 个 小 批量 数据 。 这 些 工 作者 将 并 
行 处 理 数据 ， 并 在 完成 计算 后 立即 将 结果 返回 主 节点 。 主 节点 将 汇总 所 有 结果 


最 终 重新 分 配 到 每 个 工作 者 。 

















相 较 于 100GB 或 200GB 的 大 批量 数据 ， 深 度 学 习 网 络 能 够 更 好 地 处 理 近 10GB 的 小 批量 数 
据 。 小 批量 数据 使 得 网 络 能 够 从 数据 的 不 同方 向 进行 深度 学 习 ， 随 后 重新 编 




















， 结 果 的 平均 值 将 








译 ， 从 而 为 模型 提供 
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更 广泛 的 知识 。 
男 一 方面 ， 如 果 批 处 理 规模 过 大 ， 网 络 将 尝试 快速 学 习 ， 这 会 使 得 误差 最 大 化 。 相 反 ， 较 小 
批量 的 数据 会 降低 学 习 速 度 ， 并 减 小 网 络 在 趋 近 最 小 误差 率 时 出 现 分 歧 的 可 能 性 。 
2. 参数 平均 。 参 数 平 均 是 分 布 式 深度 网 络 训练 的 关键 操作 。 在 网 络 中 , 参数 通常 是 节点 层 的 
权 值 和 偏 移 量 。 正 如 前 文 提 到 的 ， 一 旦 对 工作 者 完成 训练 ， 它 们 会 将 不 同 的 参数 返回 到 主 节 点 。 
随 着 每 次 迭代 ， 参 数 会 被 平均 、 更 新 并 发 送 回 主 节 点 ， 以 便 进行 进一步 操作 。 
参数 平均 的 顺序 过 程 如 下 所 示 。 
口 主 节 点 配置 初始 网 络 并 设置 不 同 的 超 参数 。 
口 基于 训练 中 的 主 节 点 的 配置 ， 大 数据 集 被 分 割 为 几 个 较 小 的 数据 集 。 
口 对 于 每 个 小 数据 集 执 行 以 下 操作 ， 直 到 错误 率 接近 零 
m 主 节 点 将 参数 从 主 节 点 分 配 到 每 个 单独 的 从 节点 ; 
m 每 个 从 节点 使 用 专门 的 数据 块 开始 训练 模型 ; 
mw 计算 参数 的 平均 值 并 返回 给 主 节点 。 
O 训练 完成 ， 主 节点 将 得 到 训练 网 络 的 一 个 副本 。 
分 布 式 训练 的 情况 下， 参数 平均 有 以 下 两 个 重要 优点 。 
口 通过 生成 同步 结果 来 实现 并 行 。 
口 有 助 于 通过 将 给 定数 据 集 分 成 多 个 较 小 的 数据 集 来 防止 过 拟 合 。 然 后 ， 网 络 习 得 平均 结 
果 ， 而 不 仅仅 是 汇总 来 自 不 同 较 小 批 次 的 结果 。 
图 2-6 展示 了 小 批量 处 理 和 参数 平均 运算 的 组 合 示意 图 。 
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图 2-6 ”分布 式 深度 学 习 架 构 的 高 级 架构 图 
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2.4 深度 学 习 的 开源 分 布 式 框架 





Deeplearning4} 


一 个 开源 深度 学 习 框 架 ， 主 要 用 于 商业 级 需求 。 




















Deeplearning4j (DL4J ) PLEX JVM 编写 














该 框架 完全 使 用 Java 编写 , 因此 名 称 中 包含 了 “4”。 因为 是 使 用 Java 编写 的 , 所 以 Deeplearning4j 





开始 受到 更 多 人 和 从 业者 的 欢迎 。 














该 框架 基本 上 是 由 与 Hadoop 和 Spark 集成 的 分 布 式 深度 学 习 库 组 成 的 。 在 Hadoop 和 Spark 
的 帮助 下 ,我们 可 以 轻松 地 分 发 模型 和 大 数据 集 ， 并 运行 多 个 GPU 和 CPU 来 执行 并 行 操作 。 
Deeplearning4j 主要 在 图 像 、 声 音 、 文 本 、 时 间 序 列 数 据 等 的 模式 识别 中 取得 了 巨大 成 功 。 除 此 
之 外 ， 它 还 可 以 用 于 各 种 客户 用 例 ， 如 面部 识别 、 欺 诈 检 测 、 业 务 分 析 、 推 荐 引擎 、 图 像 和 语音 


搜索 ， 以 及 传感器 数据 的 预测 维护 。 

















图 2-7 显示 了 Deeplearning4j 的 通用 高 级 架构 框图 。 
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2.4.1 Deeplearning4j 的 主要 特性 


Deeplearning4j 具有 以 下 引 人 注 目的 功能 ， 


Theano, Torch 等 。 





图 2-7 Deeplearning4j 的 高 级 架构 框图 加 





因而 完全 不 同 于 现 有 的 其 他 深度 学 习 工 具 ， 如 


























口 分 布 式 架 构 。Deeplearning4j 中 的 训练 可 以 通过 两 种 方式 进行 : 一 种 是 分 布 式 的 、 多 线程 
的 深度 学 习 ， 另 一 种 是 传统 的 、 普 通 的 单线 程 深 度 学 习 技 术 。 训 练 是 在 商用 节点 的 集群 
中 进行 的 。 因 此 , Deeplearning4j 能 够 快速 处 理 任意 数量 的 数据 ,神经 网 络 使 用 迭代 Reduce 
方法 进行 并 行 训练 ， 该 方法 适用 于 Hadoop YARN 和 Spark。 它 还 与 Cuda 内 核 集成 ， 以 进 
行 纯 GPU 操作 ， 并 与 分 布 式 GPU 配合 使 用 。 


Deeplearning4j 操作 可 以 在 Hadoop YARN 或 Spark 中 作为 一 项 作业 运行 。 在 Hadoop 中 ， 
WEAR Reduce 节点 在 HDFS 的 每 个 块 上 工作 ， 同 时 并 行 处 理 数据 。 处 理 完成 后 ， 它 们 将 变 
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换 后 的 参数 推送 回 主 节 点 ， 并 在 主 节点 获得 参数 的 平均 值 ， 接 着 更 新 每 个 工作 者 的 模型 。 


在 Deeplearning4j 中 ,分 布 式 运行 时 是 可 互 换 的 ,它们 在 一 个 庞大 的 模块 化 架构 中 充当 目 
录 的 角色 ， 可 以 进行 互 换 。 


O 数据 并 行 性 。 神 经 网 络 能 够 以 两 种 方式 进行 分 布 式 训练 : 一 种 是 数据 并 行 ， 另 一 种 是 模 
型 并 行 。Deeplearning4j 遵循 数据 并 行 训练 。 在 数据 并 行 时 ， 可 以 将 大 型 数据 集 拆 分 成 较 
小 的 数据 集 ， 并 将 它们 分 布 到 在 不 同 服 务 器 上 运行 的 并 行 模型 上 ， 以 并 行 方式 进行 训练 。 

O JVM 的 科学 计算 能 力 。 对 Java 和 Scala 中 的 科学 计算 来 说 ，Deeplearning4j 包含 了 一 个 使 
用 Java N 维 数组 (N-Dimensional Arrays for Java, ND4J) 的 YX 维 数组 类 。ND4J 的 功 
能 比 Numpy 提供 给 Python 的 功能 要 快 得 多 ， 而 且 主 要 是 用 C++ 编写 的 。 在 生产 环境 中 ， 
它 基 于 一 个 和 矩阵 操作 和 线性 代数 库 。ND4J 的 大 多 数 程序 都 被 设计 为 以 最 低 RAM 需求 来 
运行 。 

口 机 器 学 习 的 矢量 化 工具 。 为 了 矢量 化 各 种 文件 格式 和 数据 类 型 ，Canova 已 经 与 Deepleaming4j 
合并 。Canova 使 用 一 个 输入 /输出 系统 执行 向 量化 ， 就 像 Hadoop 使 用 Map-Reduce 一 样 。 
Canova 主要 用 于 通过 命令 行 界面 (command line interface, CLI) 来 矢量 化 文本 、CSV、 
图 像 、 声 音 、 视 频 等 。 









































2.4.2 Deeplearning4j 功能 总 结 





Deeplearning4j 具有 以 下 功能 。 

















口 Deeplearning4j 可 谓 是 最 完整 的 、 可 用 于 生产 的 开源 深度 学 习 库 。 

O 与 基于 Theano 的 工具 相 比 ，Deeplearning4j 具有 更 多 专门 为 深度 网 络 设计 的 特性 。 

口 Deeplearning4j 易于 使 用 ， 即 使 非 专 业 人 士 也 可 以 应 用 其 惯例 来 解决 计算 密集 型 问题 。 

口 这 些 工具 具有 广泛 的 适用 性 ， 因 此 ， 网 络 对 于 图 像 、 声 音 、 文 本 和 时 间 序 列 同样 适用 。 
口 Deeplearning4j 是 完全 分 布 式 的 , 且 可 以 并 行 运行 多 个 GPU, 这 不 同 于 非 分 布 式 的 Theano $, 
也 不 同 于 还 没 像 DL4J 一 样 执行 自动 化 分 配 的 Torch7 上 1。 









































2.5 在 Hadoop YARN 上 配置 Deeplearning4j 


Deeplearning4j 主要 作用 于 具有 多 个 层 的 神经 网 络 。 要 想 使 用 Deeplearning4j ,首先 需要 熟悉 
一 些 前 提 条 件 ， 以 及 如 何 安装 所 有 相关 软件 。 大 部 分 文档 都 可 以 在 Deeplearning4j 的 官方 网 站 
https://deeplearning4j.org/'**! | FREI. 


本 节 将 帮助 你 熟悉 Deeplearning4) 的 代码 。 首 先 展示 使 用 Deeplearning4j 的 多 层 神 经 网 络 的 一 个 
简单 操作 和 实现 。 接 着 讨论 Deeplearning4j 库 的 分 布 式 深度 学 习 。Deeplearning4j 使 用 Apache Spark 
在 多 个 分 布 式 GPU 上 训练 分 布 式 深度 神经 网 络 。 最 后 介绍 如 何 为 Deepleaming4j 设置 Apache Spark. 
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2.5.1 熟悉 Deeplearning4j 


本 节 将 主要 介绍 使 用 了 deeplearning4j 的 “Hello World” 程 序 


学 习 问 题 来 解释 Deeplearning4j 库 的 基本 功能 。 














。 我 们 将 借助 两 个 简单 的 深度 


在 Deeplearning4j 1, MultiLayerConfiguration 是 Deeplearning4j 库 的 一 个 类 ， 可 以 当 
织 神经 网 络 的 层 和 相应 的 超 参 数 。 可 以 认为 这 个 类 是 神经 网 络 的 





作 构 建 块 的 基础 ， 负 责 组 




















Deeplearning4j 的 核心 构件 。 本 书 将 使 用 这 全 





个 类 来 配置 不 同 的 多 层 神经 网 络 。 


超 参 数 是 确定 神经 网 络 学 习 过 程 的 主要 支柱 ,主要 和 包括 如 何 初始 化 模型 的 权 值 、 


ay 应 该 更 新 多 少 次 、 模 型 的 学 习 速 率 、 使 用 的 优化 算法 等 。 
第 一 个 示例 将 展示 如 何 使 用 Deeplearning4j 对 多 层 感知 机 分 类 
以 下 是 此 程序 中 使 用 的 训练 数据 集 示 例 : 


-0.500568579838, 0.687106471955 
0.190067977988, -0.341116711905 
0.995019651532, 0.663292952846 
-03053733564, 0.342392729177 
0.0376749555484, -0.836548188848 
-0.113745482508, 0.740204108847 
0.567691119889, -0.375810486522 


EDA E OER TO: 
| 
bP 


首先 需要 初始 化 网 络 的 各 种 超 参数 。 下 面 的 代码 将 为 程序 设置 ND4J 环境 : 





Nd4j .ENFORCE_NUMERICAL STABILITY = true; 
int batchSize = 50; 

int seed = 123; 

double learningRate = 0.005; 


将 迭代 次 数 设置 为 30: 


int nEpochs = 30; 

int numInputs = 2; 

int numOutputs = 2; 

int numHiddenNodes = 20; 


下 面 的 代码 将 训练 数据 加 载 到 网 络 中 : 


RecordReader rr = new CSVRecordReader() ; 

rr.initialize(new FileSplit (new File("saturn_data_train.csv"))); 

DataSetIterator trainIter = new RecordReaderDataSetIterator 
(rr,batchSize,0,2); 


随 着 训练 数据 的 加 载 ， 使 用 以 下 代码 将 测试 数据 加 载 到 模型 中 : 


RecordReader rrTest = new CSVRecordReader(); 


rrTest.initialize(new FileSplit (new File("saturn_data_eval.csv"))); 


DataSetIterator trainIter = new RecordReaderDataSetIterator 
(rrTest,batchSize,0,2); 





器 的 数据 模式 进行 分 类 。 
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网 络 模型 的 所 有 层 的 组 织 结 构 以 及 超 参 数 的 设置 都 可 以 通过 以 下 代码 来 完成 : 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
.Seed (seed) 

. iterations (1) 

.optimizationAlgo (OptimizationAlgorithm. STOCHASTIC_GRADIENT_DESCENT) 
. learningRate (learningRate) 

-updater (Updater .NESTEROVS) .momentum(0.9) 





list () 

.layer(0, new DenseLayer.Builder().nIn(numInputs) .nOut (numHiddenNodes) ae 
.weightInit (WeightInit .XAVIER) 
.activation ("relu") 
.build()) 


.layer(1, new OutputLayer.Builder (LossFunction.NEGATIVELOGLIKELIHOOD) 
.weightInit (WeightInit .XAVIER) 
.activation("softmax") 
.nIin(numHiddenNodes) .nOut (numOutputs) .build() ) 

.pretrain (false) 

.backprop (true) 

.build(); 


现在 ， 训 练 数据 集 和 测试 数据 集 已 经 加 载 完 成 ， 可 以 调用 init () 方 法 来 初始 化 模型 。 下 面 
通过 给 定 的 输入 对 模型 进行 训练 : 


Ty 











MultiLayerNetwork model = new MultiLayerNetwork (conf); 
model.init(); 


为 了 在 一 定时 间 间 隔 后 检查 输出 ， 可 以 每 更 新 5 个 参数 就 打印 分 数 : 





mođdel.setListeners (new ScoreIterationListener(5)); 
for ( int n = 0; n < nEpochs; n++) 


{ 
最 后 ， 调 用 .fit () 方 法 来 训练 网 络 : 


model.fit( trainIter ); 
} 
System.out.println("Evaluating the model...."); 
Evaluation eval = new Evaluation(numOutputs) ; 
while(testIter.hasNext () ) 
{ 
DataSet t = testIter.next(); 
INDArray features = t.getFeatureMatrix(); 
INDArray lables = t.getLabels(); 
INDArray predicted = model.output (features, false); 
eval.eval(lables, predicted); 





} 


System.out.println(eval.stats()); 
至 此 , 模型 的 训练 就 完成 了 。 接 下 来 将 绘制 数据 点 , 并 按照 以 下 代码 来 计算 数据 的 对 应 精度 : 


double xMin = -15; 
double xMax = 15; 
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doubl 
doubl 


e yMin Hcl Big. 
e yMax = 15; 


int nPointsPerAxis = 100; 


doubl 
Titec 
for ( 


{ 


e[][] evalPoints = new double[nPointsPerAxis*nPointsPerAxis] [2]; 
Cunt: S03 
int i=0; i<nPointsPerAxis; i++ ) 


for( int j=0; j<nPointsPerAxis; j++ ) 


{ 


double x = i * (xMax-xMin) /(nPointsPerAxis-1) + xMin; 
double y = j * (yMax-yMin) /(nPointsPerAxis-1) + yMin; 


evalPoints[count][0] = x; 
evalPoints[count][1] = y; 
count++; 
} 
} 
INDArray allXYPoints = Nd4j.create(evalPoints) ; 


INDAr 


ray predictionsAtXYPoints = model.output (allXYPoints) ; 


以 下 代码 会 在 绘制 图 形 前 将 所 有 训练 数据 存储 到 一 个 数组 中 : 


a eo Gal 
rr.re 


itialize(new FileSplit (new File("saturn_data_train.csv"))); 
set (); 


int nTrainPoints = 500; 


train 
Datas 
PlotU 
predi 


Iter = new RecordReaderDataSetIterator(rr,nTrainPoints,0,2); 

et ds = trainIter.next(); 

til.plotTrainingData(ds.getFeatures(), ds.getLabels(),allXYPoints, 
ctionsAtXyPoints, nPointsPerAxis) ; 


以 下 代码 可 以 通过 网 络 运行 测试 数据 并 生成 预测 ; 


rrTes 
rrTes 


t.initialize(new FileSplit (new File("saturn_data_eval.csv"))); 
t.reset(); 


int nTestPoints = 100; 


testI 
ds. = 


ter = new RecordReaderDataSetIterator(rrTest,nTestPoints,0,2); 
testIter.next(); 


INDArray testPredicted = model.output (ds.getFeatures()); 


PlotU 
allXy 


执行 上 述 代 码 需 要 运行 5~10 秒 ， 具 体 取决 于 系统 的 配置 。 在 此 期 间 ， 你 可 以 查看 控制 台 ， 
它 会 显示 模型 的 更 新 后 的 训练 分 数 。 





til.plotTestData(ds.getFeatures(), ds.getLabels(), testPredicted, 
Points, predictionsAtXYPoints, nPointsPerAxis) ; 











验证 的 部 分 数据 如 下 所 示 : 


o.d.o 


o.d.o 


.l.ScoreIterationListener - Score at iteration 0 is 
0.6313823699951172 

.l.ScoreIterationListener - Score at iteration 5 is 
0.6154170989990234 
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o.d.o.1.ScoreIterationListener - Score at iteration 10 is 
0.4763660430908203 
o.d.o.1.ScoreIterationListener - Score at iteration 15 is 
0.52469970703125 
o.d.o.1.ScoreIterationListener - Score at iteration 20 is 
0.4296367645263672 
o.d.o.1.ScoreIterationListener - Score at iteration 25 is 
0.4755714416503906 
o.d.o.1.ScoreIterationListener - Score at iteration 30 is 
0.3985047912597656 
o.d.o.1.ScoreIterationListener - Score at iteration 35 is 
0.4304619598388672 
o.d.o.1.ScoreIterationListener - Score at iteration 40 is 
0.3672477722167969 
o.d.o.1.ScoreIterationListener - Score at iteration 45 is 
0.39150180816650393 
o.d.o.1.ScoreIterationListener - Score at iteration 50 is 
0.3353725051879883 
o.d.o.1.ScoreIterationListener - Score at iteration 55 is 
0.3596681213378906 


最 后 ， 程 序 将 输出 使 用 Deeplearning4j 训练 的 模型 的 不 同 统计 数据 ， 具 体 如 下 : 


Evaluating the model.... 




















Examples labeled as 0 classified by model as 0: 48 times 
Examples labeled as 1 classified by model as 1: 52 times 


在 后 台 , 我 们 可 以 可 视 化 数据 的 绘制 , 图 像 看 起 来 像 土星 。 接 下 来 我 们 将 展示 如 何 将 Hadoop 
YARN 和 Spark 与 Deeplearning4j 进行 集成 。 图 2-8 显示 了 该 程序 输出 的 图 形 化 表示 。 




















Probability (class 0) 
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图 2-8 ”执行 上 一 个 程序 时 绘制 的 数据 点 ， 这 些 数 据点 看 起 来 像 土星 
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2.5.2 ”为 进行 分 布 式 深度 学 习 集 成 Hadoop YARN 和 Spark 


要 想 在 Hadoop 上 使 用 Deeplearning4j ， 需 要 包含 deeplearning-hadoop 依赖 关系 ， 具 体 
代码 如 下 所 示 : 





i oat 
https://mvnrepository.com/artifact/org.Deeplearning4j/Deeplearning4j-hadoop 
Sr 
<dependency> 
<groupld>org.Deeplearning4j</groupld> 
<artifactId>Deeplearning4j-hadoop</artifactId> 
<version>0.0.3.2.7</version> 
</dependency> 


同样 ， 对 于 Spark 来 说 ， 必 须 包 括 deeplearning-spark 依赖 关系 ， 具 体 代 码 如 下 : 





es 
https://mvnrepository.com/artifact/org.Deeplearning4j/dl4j-spark-nlp_2.11 - 
>. 
<dependency> 
<groupld>org.Deeplearning4j</groupld> 
<artifactId>d14j-spark-nlp_2.11</artifactId> 
<version>0.5.0</version> 
</dependency> 


本 书 不 会 讲解 Apache Spark 的 详细 功能 ， 如 果 有 兴趣 ， 你 可 以 阅读 http://spark.apache.org/. 





2.5.3 Spark 在 Hadoop YARN 上 的 内 存 分 配 规则 


前 文 已 经 说 过 ，Apache Hadoop YARN 是 一 个 集群 资源 管理 器 。 当 Deeplearning4j 通过 Spark 向 
YARN 集群 提交 训练 任务 时 ，YARN 有 责任 管理 资源 的 分 配 ， 如 CPU 内 核 配 置 、 每 个 执行 节点 所 
消耗 的 内 存 等 。 然 而 ， 为 了 让 Deeplearning4j 在 YARN 上 获得 最 佳 性 能 ， 需 要 注意 以 下 内 存 配置 。 


口 需要 使 用 spark.executor.memory 指定 执行 器 的 JVM 内 存量 。 

口 需要 使 用 spark.yarn.executor.memoryOverhead 指定 YARN 容器 的 内 存 开 销 。 
口 spark.executor.memory 和 spark.yarn.executor.memoryOverhead 的 和 必须 小 
于 YARN 分 配给 容器 的 内 存 。 

口 ND4j 和 JavaCPP 需要 知道 堆 外 内 存 的 分 配 。 可 以 使 用 org.bytedqeco. javacpp .maxbytes 
系统 属性 来 达到 此 目的 。 


O org.bytedeco.javacpp.maxbytes 必须 小 于 spark.yarn.executor.memoryOverheado 


Deeplearning4j 的 当前 版 本 使 用 参数 平均 值 来 执行 神经 网 络 的 分 布 式 训练 。 以 下 操作 完全 按 
照 2.3.4 节 “参数 平均 ”部 分 描述 的 方式 来 执行 : 
























































SparkD14jMultiLayer sparkNet = new SparkD14jMultiLayer(sc,conf, 
new ParameterAveragingTrainingMaster 
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.Builder (numExecutors(),dataSetObjSize 
.batchSizePerWorker (batchSizePerExecutor) 
.averagingFrequency (1) 
.repartionData(Repartition.Always) 
oui () ) 3 
sparkNet.setCollectTrainingStats (true); 


要 想 列 出 HDFS 中 的 所 有 文件 以 便 在 不 同 节点 上 运行 代码 ， 需 要 运行 以 下 代码 : 


Configuration config = new Configuration(); 

FileSystem hdfs = FileSystem.get (tempDir.toUri(), config); 

RemotelIterator<LocatedFileStatus> fileIter = hdfs.listFiles 
(new org.apache.hadoop.fs.Path(tempDir.toString()),false); 








List<String> paths = new ArrayList<>(); 
while(fileIter.hasNext () ) 
{ 
String path = fileIter.next().getPath().toString(); 
paths.add(path) ; 
} 


使 用 YARN 和 HDFS 来 设置 Spark 的 完整 代码 将 与 代码 包 一 同 提供 。 出 于 简洁 的 目的 , 这 里 
只 显示 部 分 代码 以 便于 理解 。 


接 下 来 将 通过 一 个 示例 来 演示 如 何 使 用 Spark， 并 通过 Deeplearning4j 将 数据 加 载 到 内 存 中 。 
首先 使 用 基本 的 DataVec 示例 来 显示 CSV 数据 的 一 些 预 处 理 操作 。 


样本 数据 集 如 下 所 示 : 


2016-01-01 17:00:00.000,830a7u3,u323fy8902,1,USA,100.00,Legit 
2016-01-01 18:03:01.256,830a7u3,9732498o0oeu,3,FR,73.20,Legit 
2016-01-03 02:53:32.231,78ueoau32,w234e989,1,USA,1621.00,Fraud 
2016-01-03 09:30:16.832,t842uocd,9732498o0oeu,4,USA,43.19,Legit 
2016-01-04 23:01:52.920,t842u0cd,cza8873bm,10,MX,159.65,Legit 
2016-01-05 02:28:10.648,t842u0cd, fgcq9803,6,CAN, 26.33, Fraud 
2016-01-05 10:15:36.483,rgc707ke3,tn342v7,2,USA,-0.90,Legit 


程序 的 问题 如 下 。 


口 删除 一 些 不 必要 的 列 。 

口 过 滤 数 据 ， 仅 保留 MerchantCountryCode 列 值 为 USA 和 MX 的 示例 。 

口 # ft Transact ionAmountUSD 列 中 的 无 效 条 目 。 

口 解析 数据 字符 串 ， 并 从 中 收集 一 天 的 数据 ， 以 创建 一 个 新 的 HourofDay 列 。 


Schema inputDataSchema = new Schema.Builder() 
.addColumnString("DateTimeString") 
.addColumnsString("CustomerID", "MerchantID") 
.addColumniInteger ("NumItemsInTransaction") 
.addColumnCategorical ("MerchantCountryCode", 

Arrays.asList ("USA", "CAN", "FR", "MX") ) 
.addColumnDouble("TransactionAmountUSD",0.0,null1, false, false) 
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.addColumnCategorical ("FraudLabel",Arrays.asList ("Fraud","Legit") ) 


-build(); 
System.out.printlin("\n\nOther information obtainable from schema:"); 
System.out.println("Number of columns: " + 
inputDataSchema.numColumns() ) ; 
System.out.printin("Column names: " + 
inputDataSchema.getColumnNames () ) ; 
System.out.printin("Column types: " + 


inputDataSchema.getColumnTypes()); 
以 下 部 分 将 定义 要 在 数据 集 上 执行 的 操作 : 


TransformProcess tp = new TransformProcess.Builder (inputDataSchema) 
.removeColumns ("CustomerID", "MerchantID") 

. filter (new ConditionFilter ( 

new CategoricalColumnCondition("MerchantCountryCode", 
ConditionOp.NotInSet, new HashSet<>(Arrays.asList ("USA","MX"))))) 


在 非 结构 化 数据 中 , 数据 集 通 常 是 有 噪声 的 , 因此 需要 处 理 一 些 无 效 数 据 。 对 于 负 的 美元 值 ， 
那么 程序 会 将 它们 替换 为 0.0。 正 数 的 美元 值 保持 不 变 。 


.conditionalReplaceValueTransform( 
"TransactionAmountUSD", 
new DoubleWritable(0.0), 
new DoubleColumnCondition("TransactionAmountUSD",ConditionOp.LessThan, 0.0) ) 


现在 ， 根 据 问题 描述 使 用 以 下 代码 对 DateTime 格式 进行 格式 化 : 


.stringToTimeTransform("DateTimeString", "YYYY-MM-DD HH:mm:ss.SSS", 

DateTimeZone.UTC) 

.renameColumn("DateTimeString", "DateTime") 

.transform(new DeriveColumnsFromTimeTransform. Builder ("DateTime") 
.addIntegerDerivedColumn("HourOfDay", DateTimeFieldType.hourOfDay () ) 
-build()) 

.removeColumns ("DateTime") 

-build(); 


执行 完 所 有 这 些 操作 后 将 创建 不 同 的 模式 ， 如 下 所 示 : 


Schema outputSchema = tp.getFinalSchema(); 























System.out.println("\nSchema after transforming data:"); 
System.out.printin(outputSchema) ; 


以 下 代码 将 设置 Spark 以 执行 所 有 操作 : 


SparkConf conf = new SparkConf(); 
conf.setMaster("local[*]"); 
conf.setAppName("DataVec Example"); 


JavaSparkContext sc = new JavaSparkContext (conf); 


String directory = new ClassPathResource("exampledata.csv") .getFile() 
-getParent (); 


2.5 Æ Hadoop YARN 上 配置 Deeplearning4j 
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要 想 直 接 从 HDFS 获取 数据 ， 必 须 传 递 hdfs:// {路 径 名 }: 





JavaRDD<String> stringData = sc.textFile(directory) ; 


使 用 CSVRecordReader () 方 法 解析 输入 数据 : 





RecordReader rr = new CSVRecordReader () ; 
JavaRDD<List<Writable>> parsedInputData = stringData.map (new 
StringToWritablesFunction(rr)); 


Spark 的 预定 义 转换 执行 如 下 : 


SparkTransformExecutor exec = new SparkTransformExecutor(); 
JavaRDD<List<Writable>> processedData = exec.execute(parsedInputData,tp); 
JavaRDD<String> processedAsString = processedData.map (new 
WritablesToStringFunction(",")); 


如 前 文 所 述 ， 为 了 将 数据 保存 回 HDFS ， 只 需 将 文件 路 径 放 在 hafs:// 之 后 : 
processedAsString.saveAsTextFile("hdfs://your/hdfs/save/path/here" ) 


List<String> processedCollected = processedAsString.collect(); 
List<String> inputDataCollected = stringData.collect(); 


System.out.printin("\n ---- Original Data ----"); 
for(String s : inputDataCollected) System.out.printin(s); 


System.out.printin("\n ---- Processed Data ----"); 
for(String s : processedCollected) System.out.printin(s); 


当 使 用 Deeplearning4j 的 Spark 执行 程序 时 ， 将 得 到 以 下 输出 : 


14:20:12 INFO MemoryStore: Block broadcast_0 stored as values in memory 
(estimated size 104.0 KB, free 1390.9 MB) 

16/08/27 14:20:12 INFO MemoryStore: ensureFreeSpace(10065) called with 
curMem=106480, maxMem=1458611159 

16/08/27 14:20:12 INFO MemoryStore: Block broadcast_0_piece0 stored as 
bytes in memory (estimated size 9.8 KB, free 1390.9 MB) 

16/08/27 14:20:12 INFO BlockManagerInfo: Added broadcast_0_piece0O in memory 
on localhost:46336 (size: 9.8 KB, free: 1391.0 MB) 

16/08/27 14:20:12 INFO SparkContext: Created broadcast 0 from textFile at 
BasicDataVecExample.java:144 
16/08/27 14:20:13 INFO SparkTransformExecutor: Starting execution of stage 
l of 7 
16/08/27 14:20:13 INFO SparkTransformExecutor: Starting execution of stage 
2 of 7 
16/08/27 14:20:13 INFO SparkTransformExecutor: Starting execution of stage 
3 of 7 
16/08/27 14:20:13 INFO SparkTransformExecutor: Starting execution of stage 
4 of 7 
16/08/27 14:20:13 INFO SparkTransformExecutor: Starting execution of stage 
BGE 
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以 下 是 输出 : 


---- Processed Data ---- 
17,1,USA,100.00, Legit 
2,1,USA,1621.00,Fraud 
9,4,USA, 43.19,Legit 
23,10,MX,159.65,Legit 
10,2,USA,0.0,Legit 


与 本 例 类 似 ， 也 可 以 在 Spark 中 以 定制 的 方式 处 理 许多 其 他 数据 集 。 下 一 章 将 展示 特定 深度 
神经 网 络 的 Deeplearning4j 代码 。Apache Spark 和 Hadoop YARN 的 实现 是 一 个 通用 过 程 , 不 会 根 
据 神经 网 络 而 改变 。 你 可 以 根据 需要 使 用 该 代码 在 集群 或 本 地 部 署 深度 网 络 代码 。 














2.6 小 结 


与 传统 的 机 融 学 习 算 法 相 比 , 深度 学 习 模 型 能 够 解决 大 量 输入 数据 所 带 来 的 挑战 。 深度 学 习 
网 络 旨 在 从 非 结构 化 数据 中 上 自动 提取 出 数据 的 复杂 表征 。 这 个 特性 使 得 深度 学 习 成 为 从 大 数据 中 
学 习 隐 藏 信息 的 宝贵 工具 。 然 而 ,由 于 数据 量 和 数据 种 类 日 益 增 加 ,需要 以 一 种 分 布 式 方式 来 存 
储 和 处 理 深度 学 习 网 络 。 作 为 最 广泛 用 于 此 类 需求 的 大 数据 框架 ，Hadoop 是 非常 适合 这 种 情况 
Wo WHT Hadoop 的 主要 组 件 ， 这 些 组 件 是 分 布 式 深度 学 习 架 构 所 必需 的 。 本 章 也 对 分 布 
式 深度 学 习 网 络 的 关键 特征 进行 了 深入 曾 述 。Deeplearning4j 是 一 个 开源 的 分 布 式 深度 学 习 框架 ， 
H- Hadoop 的 集成 满足 了 上 述 不 可 或 缺 的 要 求 。 


Deeplearning4j 完全 是 用 Java 编写 的 ， 它 可 以 通过 迭代 Map-Reduce 以 分 布 式 方式 更 快 地 处 
理 数据 ， 并 且 可 以 解决 大 规模 数据 带 来 的 许多 问题 。 本 章 提供 了 两 个 示例 ， 以 便 你 了 解 基 本 的 
Deeplearning4j 代码 和 语法 ,同时 还 为 Spark 配置 提供 了 一 些 代 码 片 段 , 与 Hadoop YARN FI Hadoop 
分 布 式 文件 系统 集成 。 


下 一 章 将 介绍 一 种 流行 的 深度 学 习 网 络 一 一 卷 积 神经 网 络 。 首 先 ， 我 们 会 讨论 卷 积 的 方法 ， 
以 及 如 何 利 用 它 来 建立 一 个 主要 用 于 图 像 处 理 和 图 像 识别 的 高 级 神经 网 络 。 接 下 来 会 提供 使 用 
Deeplearning4j 实现 卷 积 神经 网 络 的 相关 信息 。 































































































孝 积 神经 网 络 








“计算 机 能 否 思考 ， 这 个 问题 并 不 比 “ 潜 水 艇 能 否 游泳 ”这 个 问题 更 有 趣 。” 
一 一 Edsger W. Dijkstra 


卷 积 神经 网 络 将 数学 与 生物 学 相 结合 , 并 加 入 了 少量 计算 机 科学 , 从 而 给 人 一 种 很 神奇 的 感 
觉 。 然 而 , 这 类 网 络 已 经 成 为 计算 机 视觉 领域 中 最 主要 和 最 强大 的 架构 之 一 。 由 于 深度 学 习 领 域 
的 先驱 大 大 提升 了 分 类 精度 ， 卷 积 神经 网 络 自 2012 年 起 开始 大 受 欢 迎 。 从 那 以 后 ， 一 批 高 科技 
公司 开始 将 深度 卷 积 神经 网 络 应 用 于 各 种 服务 。Amazon 将 卷 积 神经 网 络 用 于 产品 推荐 ，Google 
将 其 用 于 照片 搜索 ， 而 Facebook 则 主要 将 其 用 于 自动 标记 算法 。 


卷 积 神经 网 络 [89] 是 由 神经 元 组 成 的 一 种 前 馈 神 经 网 络 ， 具 有 可 学 习 的 权 值 和 偏 移 量 。 这 类 
网 络 一 般 用 于 处 理 具有 网 络 拓扑 结构 的 数据 。 顾名思义 ， 卷 积 神经 网 络 是 一 种 神经 网 络 。 与 一 般 
的 矩阵 乘法 不 同 ， 它 包含 了 一 种 特殊 的 线性 运算 : 卷 积 ,可 至 少 用 于 一 个 后 续 层 。 卷 积 神经 网 络 
的 架构 旨 在 利用 具有 多 维 结构 的 输入 数据 ， 其 中 包括 输入 图 像 的 2D 结构 、 语 音信 号 ， 甚 至 一 维 
时 间 序 列 数据 。 和 凭借 这 些 优势 ， 卷 积 神经 网 络 已 经 有 了 很 多 成 功 的 实际 应 用 案例 ,特别 是 在 自然 
语言 处 理 、 推 荐 系统 、 图 像 识别 和 视频 识别 等 领域 。 


偏 置 单元 是 一 个 额外 的 神经 元 ,其 值 为 1 并 会 添加 到 每 个 预 输出 层 。 这 些 单元 未 
连接 到 上 一 层 ， 因 此 实际 上 不 代表 任何 活动 。 


本 章 将 深入 讨论 卷 积 神经 网 络 的 构建 块 。 首先 探讨 卷 积 是 什么 , 以 及 卷 积 计算 在 神经 网 络 中 
的 必要 性 ; 然后 探讨 卷 积 神经 网 络 最 重要 的 组 成 部 分 一 一 池 化 操作 ; 接着 指出 卷 积 神经 网 络 在 处 
理 大 规模 数据 时 面临 的 主要 挑战 ， 最 后 介绍 如 何 使 用 Deeplearning 和 4 来 设计 卷 积 神经 网 络 。 


本 章 涉 及 的 主题 如 下 : 


口 卷 积 是 什么 

口 卷 积 神经 网 络 的 背景 

口 卷 积 神经 网 络 的 基本 层 

口 分 布 式 深度 卷 积 神经 网 络 

口 用 Deepleaming4j 构建 卷 积 神经 网 络 
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3.1 BTA 


为 了 理解 卷 积 的 概念 ,我 们 先 来 看 一 个 示例 : 借助 激光 传感器 来 确定 丢失 手机 的 位 置 。 假 设 
时刻 手机 的 当前 位 置 可 以 由 激光 传感器 给 出 ， 为 jD。 激 光 传感器 可 以 给 出 任意 + 时 刻 手 机 所 在 
位 置 的 读数 。 但 激光 传感器 的 读数 往往 因 包 含 噪声 而 不 够 准确 。 因 此 ,为 了 获得 一 个 相对 准确 的 
手机 位 置 , 需要 计算 各 种 测量 的 平均 值 。 理 想 情况 下 , 测量 次 数 越 多 , 位 置 的 精度 就 越 高 。 因 此 ， 
应 该 计算 加 权 平 均值 ， 以 便 为 测量 值 提供 更 多 的 权 值 。 


函数 w(O) 是 一 个 加 权 函 数 , 其 中 4b 表示 测量 的 历史 时 刻 。 为 了 获得 一 个 能 够 更 好 地 估计 手机 
位 置 的 函数 ， 我 们 需要 获取 每 一 时 刻 的 加 权 平 均 数 。 


新 函数 如 下 所 示 : 
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g(t) = | f(b)w(e—-b)db 
前 面 的 操作 称 为 卷 积 。 表 示 卷 积 的 常规 方法 是 使 用 星 号 *: 
a(t) =(f* WO 
从 形式 上 来 看 ， 卷 积 可 以 定义 为 两 个 函数 乘积 的 积分 ， 其 中 一 个 函数 被 反 转 和 移 位 。 此 外 ， 
取 加 权 平均 数 也 可 以 用 于 其 他 目的 。 


在 卷 积 网 络 的 术语 中 ， 上 面 示例 中 的 函数 了 称 为 输入 ， 其 第 二 个 参数 ( 也 就 是 函数 w ) 称 为 
卷 积 核 。 卷 积 核 由 多 个 滤波 如 组 成 ,这些 滤 波 絮 作用 于 输入 端 并 提供 输出 ,这 个 过 程 称 为 特征 映 
射 。 简 而 言 之 ， 卷 积 核 可 看 作 只 人 允许 部 分 输入 〈 即 期 望 特征 ) 通过 的 一 种 薄膜 。 图 3-1 展示 了 该 
操作 。 
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图 3-1 卷 积 网 络 的 简单 表示 ,输入 必须 通过 卷 积 核 来 提供 特征 映射 


如 上 述 示例 所 示 , 在 实践 中 ,激光 传感器 不 可 能 在 每 个 给 定 的 时 刻 提 供 真正 的 测量 值 。 理想 
情况 下 ,计算机 上 只 会 以 一 定 的 时 间 间 隔 处 理 数据 ， 该 过 程 是 离散 的 。 因 此 ,传感器 通常 会 以 定义 
的 某 个 时 间 间 隔 提 供 结果 。 如 果 假 设 该 仪器 提供 1 次 / 秒 的 输出 ， 则 参数 ! 将 仅 取 整 数值 。 有 了 这 
些 假设 后 ， 函 数 ./ 和 图 将 仅 对 上 的 整数 值 定义 。 离 散 卷 积 的 修正 方程 如 下 所 示 : 


















































s=(f* wi = > f(b) w(t—5) 
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在 机 絮 学 习 或 深度 学 习 应 用 中 , 输入 数据 通常 是 一 个 多 维 数组 , 并 且 卷 积 核 使 用 由 算法 得 出 
的 不 同 参数 的 多 维 数组 ,该 理论 的 基本 假设 是 ， 函 数值 在 有 限 集合 内 是 非 零 的 ,而 在 其 余地 方 则 
为 零 。 因 此 ， 无 限 求 和 可 以 表示 为 有 限 数 量 的 数组 元 素 的 求 和 。 例 如 ， 对 于 作为 输入 的 2D 图 像 
7 和 对 应 的 2D 内 核 上 来 说 ， 卷 积 函数 可 以 写成 如 下 形式 : 









































S(p.q) =(1* K)\(p.q) = > > Ta,b)K(p-a)(q -Db) 














到 目前 为 止 , 你 已 经 对 卷 各 有 了 一 定 的 了 解 。 下 一 节 将 讨论 卷 积 在 神经 网 络 和 卷 积 神经 网 络 
中 的 应 用 。 








3.2 ” 卷 积 神经 网 络 的 背景 


卷 积 神经 网 络 是 一 种 特殊 的 深度 学 习 模 型 , 它 并 不 是 一 个 新 概念 , 计算 机 视觉 界 很 早 前 就 已 
广泛 采用 卷 积 神经 网 络 。LeCun 等 人 于 1998 年 将 该 模型 应 用 于 手写 数字 识别 ， 并 取得 了 良好 效 
RDO, 但 问题 是 , 由 于 卷 积 神经 网 络 无 法 处 理 高 分 辩 率 的 图 像 , 其 流行 度 随时 间 的 推移 而 降低 了 。 
原因 主要 是 硬件 和 内 存 的 限制 ， 以 及 缺乏 大 规模 的 可 用 训练 数据 集 。 随 着 计算 能 力 的 增强 ( 主要 
得 益 于 CPU 和 GPU 的 广泛 可 用 性 ) 以 及 大 量 数据 的 生成 ,MIT Places 数据 集 ( 见 Zhou et al., 2014 )、 
ImageNet 5 等 各 种 大 规模 数据 集 让 训练 更 大 、 更 复杂 的 模型 成 为 可 能 。 最 初 的 研究 始 于 
Krizhevsky 等 人 的 论文 申 。 与 传统 方法 相 比 ， 他 们 在 该 论文 中 将 错误 率 降低 了 一 半 。 在 接 下 来 的 
几 年 里 ， 这 篇 论文 成 为 了 计算 机 视觉 领域 中 最 具 影 响 力 的 论文 之 一 。 由 Alex Krizhevsky 训练 的 
这 个 受 欢迎 的 网 络 称 为 AlexNet， 这 很 可 能 就 是 计算 机 视觉 领域 使 用 深度 网 络 的 起 点 。 






















































































染 构 概述 
假设 你 已 经 熟悉 传统 神经 网 络 ， 本 将 介绍 卷 积 神经 网 络 的 一 般 构 件 。 


传统 的 神经 网 络 接收 单个 向 量 作 为 输入 ,并 通过 一 系列 潜在 ( 隐藏 ) 层 到 达 中 间 状 态 。 每 个 
隐藏 层 由 多 个 神经 元 组 成 ， 每 个 神经 元 都 是 与 上 一 层 的 其 他 神经 元 全 连接 的 。 被 称 为 “输出 层 ” 
的 最 后 一 层 也 是 全 连接 的 ， 负 责 为 分 类 打分 。 常 规 的 三 层 神 经 网 络 如 图 3-2 所 示 。 






























































第 一 隐藏 层 ”第 二 隐藏 层 

















3-2 ”常规 三 层 神经 网 络 的 框图 ， 每 层 的 神经 元 与 上 一 层 的 其 他 神经 元 全 连接 
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常规 的 神经 网 络 在 处 理 大 规模 图 像 数 据 时 面临 着 巨大 的 挑战 。 例 如 , 在 CIFAR-10 RGB 数据 
库 中 ,图 像 的 尺寸 为 32x32x3， 因此， 在 传统 神经 网 络 的 第 一 隐藏 层 中 ， 单 个 全 连接 的 神经 元 将 
具有 32x32x3=3072 个 权 值 。 权 值 的 数量 在 一 开始 似乎 是 合理 的 ， 但 随 着 维度 的 增加 ， 权 值 管理 
将 是 一 项 繁琐 的 任务 。 对 另 一 个 RGB 图 像 来 说 ， 如 果 尺 寸 变 为 300x300x3 ， 那 么 单个 神经 元 的 
权 值 总 数 将 达到 300x300x3=270 000 个 。 此 外 ， 随 着 层 数 的 增加 ， 这 一 数字 也 将 大 幅 增 大 ， 并 将 
迅速 导致 过 拟 合 问题 。 此 外 ， 图 像 的 可 视 化 完全 忽略 了 其 复杂 的 2D 空间 结构 。 因 此 ， 从 初始 阶 
段 开始 , 神经 网 络 的 全 连接 概念 似乎 不 适用 于 较 高 维度 的 数据 集 。 因 此 , 我 们 需要 建立 一 个 能 够 
突破 这 两 个 限制 的 模型 。 


解决 该 问题 的 方法 之 一 是 , 使 用 卷 积 代替 和 矩阵 乘法 。 从 一 组 卷 积 滤波 器 ( 核 ) 中 学 习 比 从 整 
个 矩阵 (300x300x3 ) 中 学 习 要 容易 得 多 。 与 传统 的 神经 网 络 不 同 ， 卷 积 神经 网 络 的 各 层 将 神经 
元 分 为 宽度 、 高 度 和 深度 3 个 维度 ， 如 图 3-3 所 示 。 例如， 在 上 一 个 CIFAR-10 的 示例 中 ， 图 像 
的 尺寸 为 32x32x3 ， 分 别 代表 宽度 、 深 度 和 高 度 。 在 卷 积 神经 网 络 中 ,各 层 中 的 神经 元 不 再 是 全 
连接 的 ， 而 仅 与 上 一 层 神 经 元 的 一 个 子 集 连 接 。 具 体内 容 将 在 后 文中 进行 说 明 。 此 外 ， 最 终 输 出 
JZ CIFAR-10 图 像 的 尺寸 为 1x1x10, 因为 卷 积 神经 网 络 会 将 完整 的 图 像 沿 着 深度 缩小 成 单一 的 分 
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图 3-3 3D ( 宽度 、 高 度 和 深度 ) 卷 积 神经 网 络 。 每 一 层 将 3D 输入 图 像 转换 为 神经 元 
激活 的 相应 3D 输出 图 像 。 红 色 输 入 层 表 示 原 始 图 像 ， 因 此 其 宽度 和 高 度 将 是 
图 像 的 尺寸 ， 其 深度 为 3 ( 红色、 绿色 和 蓝 色 )。 图 片 来 自 维基 百科 


















































3.3 ” 卷 积 神经 网 络 的 基本 层 


卷 积 神经 网 络 由 一 系列 层 组 成 , 每 一 层 都 通过 一 个 可 微 函数 将 自身 从 一 个 激活 状态 变换 到 男 
一 个 状态 。 用 于 构建 卷 积 神 经 网 络 的 层 主要 有 4 种 类 型 : 卷 积 层 、 修 正 线性 单元 层 、 池 化 层 和 全 
连接 层 。 所 有 这 些 层 堆 县 在 一 起 就 形成 了 完整 的 卷 积 神 经 网 络 。 


常规 卷 积 神经 网 络 的 架构 如 下 : 
[输入 一 卷 积 一 修正 一 池 化 一 全 连接 ] 
然而 ， 在 深度 卷 积 神经 网 络 中 ， 这 5 个 基本 层 之 间 通 常 散 布 着 更 多 的 层 。 
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典型 深度 神经 网 络 的 架构 如 下 : 
输入 一 卷 积 一 修正 一 卷 积 一 修正 一 池 化 一 修正 一 卷 积 一 修正 一 池 化 一 全 连接 


如 前 一 节 所 述 ，AlexNet 可 以 作为 这 种 架构 的 完美 示例 。AlexNet 的 架构 如 图 3-4 所 示 。 每 层 
的 后 面 添加 了 一 个 隐 式 的 非 线性 修正 。 下 一 节 将 对 此 进行 详细 解释 。 











11x11x3 5x5x96 3x3x256 3x3x 384 3 x 3 x 384 9216x 1x1 4096x1x1 4096x1x1 


{96} {256} {384} {384} {256} {4096} {4096} {1000} 


aE 局 部 反应 最 大 池 化 时 ERE 
iA 卷 积 层 ce ia) 最 大 池 化 层 | 全 连接 层 


图 3-4 AlexNet 的 深度 和 权 值 图 示 ( 花 括 号 中 的 数字 表示 具有 某 太 二 的 滤波 器 数量 ) 





















































有 人 可 能 会 想 ， 为 什么 需要 多 层 的 卷 积 神经 网 络 呢 ? 接 下 来 我 们 将 对 此 进行 解释 。 


3.3.1 卷 积 神经 网 络 深度 的 重要 性 


作者 在 论文 9 中 列举 了 一 些 统计 数据 ,以 表明 深度 网 络 是 如 何 提 高 输出 的 准确 率 的 。 论文 指 
出 , Krizhevsky 等 人 利用 ImageNet 的 数据 训练 了 一 个 具有 8 层 结构 的 模型 。 当 去 除 最 上 面 的 全 连 
接 层 (第 7 层 ) 时 ， 模 型 会 减少 约 1600 万 个 参数 ， 性 能 下 降 1.1%。 此 外 ， 当 去 除 前 两 层 (第 6 
层 和 第 7 层 ) 时 ,模型 会 减少 近 5000 万 个 参数 ,性 能 下 降 5.7%。 类 似 地 ， 当 去 除 上 层 的 特征 提 
取 层 (第 3 层 和 第 4 层 ) 时 ， 模 型 会 减少 大 约 100 万 个 参数 ， 性 能 下 降 3.0%。 为 了 更 好 地 理解 
这 个 场景 ， 当 上 层 特征 提取 层 和 全 连接 层 (第 3 层 、 第 4 层 、 第 6 层 和 第 7 层 ) 被 去 除 时 ,模型 
只 剩 4 层 ， 此 时 性 能 下 降 33.5% 。 


因此 , 很 容易 根据 上 述 案例 得 出 一 个 结论 : 我 们 需要 深度 卷 积 网 络 来 提高 模型 的 性 能 。 然 而 ， 
因为 内 存 和 性 能 管理 的 限制 , 很 难 在 集中 式 系 统 中 管理 深度 网 络 , 所 以 需要 实现 一 个 分 布 式 的 深 
度 卷 积 神经 网 络 。 本 章 的 后 续 部 分 将 介绍 如 何 借 助 Deeplearning4) 实现 该 模型 ,并 将 其 与 Hadoop 
的 YARN 进行 集成 。 





3.3.2 FE 
如 架构 概述 中 所 述 , 卷 积 的 主要 目的 是 允许 模型 在 给 定时 间 内 处 理 一 定量 的 输入 数据 。 此 外 ， 
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卷 积 支 持 三 个 最 重要 的 特性 ， 它 们 有 助 于 提高 深度 学 习 模 型 的 性 能 。 这 些 特性 如 下 : 


O Finite 
O 参数 共享 
口 平移 不 变性 


接 下 来 将 依次 介绍 这 些 特性 。 
1. 稀疏 连接 


如 上 所 述 , 传统 网 络 层 使 用 具有 不 同 参数 的 参数 矩阵 的 矩阵 乘法 去 描述 每 个 输出 单元 和 输入 
单元 之 间 的 关系 。 另 一 方面 ， 卷 积 神经 网 络 使 用 稀 琉 连接 ( 有 时 称 为 稀 琉 交互 或 稀 琉 权 值 ) 来 达 
到 同样 的 目的 。 这 是 通过 让 卷 积 核 的 大 小 小 于 输入 数据 来 实现 的 , 这 有 助 于 降低 算法 的 时 间 复 杂 
BE. 例如 ,对 一 个 大 型 的 图 像 数 据 集 来 说 ， 其 单个 图 像 可 能 具有 成 十 上 万 个 像素 , 但 用 户 只 能 从 
图 像 中 识别 出 一 部 分 小 的 、 显 著 的 特征 ， 如 从 卷 积 核 识别 出 图 像 的 边缘 和 轮廓 ,它们 只 有 数 百 或 
数 十 个 像素 。 因 此 , 我 们 只 需要 保留 少量 参数 ， 这 有 助 于 减少 模型 和 数据 集 所 需要 的 内 存 。 这 种 
方法 同时 也 降低 了 作业 量 , 从 而 提高 整体 的 运算 能 力 。 这 反 过 来 又 极 大 地 降低 了 计算 的 时 间 复 杂 
度 ， 并 最 终 提 高 计算 效率 。 稀 琉 连 接 方法 可 以 减少 每 个 神经 元 的 感受 野 ， 如 图 3-5 所 示 。 





















































图 3-5 M 的 输入 单元 是 如 何 影响 具有 稀 玖 连接 性 的 输出 单元 N3 的 , SEE AS E], 
稀 蚊 连接 方法 中 的 感受 野 数 量 从 5 个 减少 到 3 个 (M2、M3 和 M4 )。 箭头 表示 
参数 共享 的 方法 : 一 个 神经 元 的 连接 由 模型 中 的 两 个 神经 元 共享 





























卷 积 层 中 的 每 个 神经 元 接收 作用 于 上 一 层 的 滤波 器 的 响应 .这 些 神 经 元 的 主要 作 
p 用 是 通过 一 种 非 线 性 的 方式 传递 响应 ,滤波 器 作用 于 其 上 的 先前 层 的 总 面积 称 为 
该 神经 元 的 感受 野 。 因 此 ， 感受 野 总 是 等 于 滤波 器 的 大 小 。 
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因此 , PEE FL int EBX — TEIN, 每 层 的 感受 野 小 于 使 用 矩阵 乘法 时 的 感受 野 。 但 值得 注 
意 的 是 ,对 深度 卷 积 神经 网 络 而 言 ， 神 经 元 的 感受 野 实 际 上 大 于 相应 浅 层 网 络 的 感受 野 ， 因 为 深 
度 网 络 中 的 所 有 神经 元 会 间接 地 连接 到 网 络 中 几乎 所 有 的 神经 元 ,图 3-6 是 此 类 场景 的 直观 表示 。 























N3 的 间接 感受 野 
































图 3-6 卷 积 神经 网 络 多 层 间 的 稀 足 连 接 。 在 图 3-5 中 单元 N3 具有 3 个 感受 野 ， 这 里 
N3 的 感受 野 数量 增加 为 5 个 











@ 改进 的 时 间 复 杂 度 

与 上 一 节 中 给 出 的 示例 类 似 ， 如 果 一 个 层 中 有 p 个 输入 和 9g 个 输出 ， 则 和 矩阵 乘法 将 需要 pxq 
个 参数 。 算 法 的 时 间 复 杂 度 将 变 为 O(pxq)。 在 使 用 稀 跑 连接 方式 时 ， 如 果 将 与 每 个 输出 相关 联 
的 上 限 连接 数 限制 为 nx， 则 只 需要 nxg 个 参数 ， 且 运行 时 复杂 度 将 降低 到 O(nxq)。 对 现实 生活 中 
的 很 多 应 用 来 说 ,， 稀 玖 连接 方法 在 深度 学 习 任务 中 表现 优异 ， 同 时 使 得 n 远 远 小 于 po 


2. 参数 共享 








参数 共享 可 以 定义 为 模型 中 多 个 函数 使 用 相同 参数 的 过 程 。 在 常规 的 神经 网 络 中 ， 当 计算 某 
一 层 的 输出 时 , 权 值 矩阵 的 每 个 元 素 仅 使 用 一 次 。 权 值 会 乘 以 一 个 输入 元 素 , 但 绝 不 会 重复 使 用 。 
参数 共享 也 可 称 为 权 值 捆绑 ,因为 用 于 一 个 输入 的 权 值 与 用 于 其 他 输入 的 权 值 相关 联 。 图 3-5 也 
可 以 看 作 参 数 共享 的 一 个 示例 。 例 如 ,来 自 M2 的 特定 参数 可 用 于 N1 和 N3。 


这 个 操作 的 主要 目的 是 控制 卷 积 层 中 自由 参数 的 数量 。 在 卷 积 神经 网 络 中 , 卷 积 核 的 每 个 元 
素 几 乎 用 于 输入 数据 的 每 一 个 位 置 。 一 个 合乎 逻辑 的 假设 是 , 如 果 在 空间 中 的 某 个 位 置 发 现 了 一 
个 合理 的 特征 ， 则 还 需要 计算 空间 中 的 其 他 位 置 是 否 也 出 现 了 该 特征 。 

















因为 单个 次 度 切片 的 所 有 元 素 共享 相同 类 型 的 参数 , 所 以 可 以 通过 神经 元 的 权 值 与 输入 图 像 
的 卷 积 ， 来 测量 卷 积 层 的 每 个 深度 切片 中 的 前 向 传播 量 。 这 个 卷 积 操作 的 结果 是 一 个 激活 映射 。 
激活 映射 的 集合 以 深度 维度 的 方向 堆 秋 在 一 起 , 以 产生 输出 图 像 。 虽然 参数 共享 方法 赋予 了 卷 积 
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神经 网 络 架构 的 平移 不 变性 ， 但 并 不 会 缩短 正 向 传播 的 运行 时 间 。 
o 改进 的 空间 复杂 度 


在 参数 共享 中 ， 模 型 的 运行 时 间 仍然 为 O0zx9q)。 然 而 ， 因 为 模型 需要 存储 的 参数 减少 为 on 
个 ,所 以 参数 共享 有 助 于 显著 降低 整体 的 空间 复杂 性 。 因 为 和 4 通常 具有 相似 的 大 小 ,所 以 与 
pxg 的 结果 相 比 ，n 的 值 几乎 可 以 忽略 。 



































ap 在 时 间 复 杂 度 以 及 空间 复杂 度 方 面 ， 卷 积 的 效率 要 比 传统 的 密集 短 阵 乘法 高 得 多 。 


3. 平移 不 变性 

由 于 参数 共享 , 卷 积 层 中 的 层 具 有 平移 不 变性 。 等 变 函 数 定 义 为 输出 与 输入 具有 相同 变化 方 
式 的 函数 。 

从 数学 的 角度 来 说 ， 如 果 碟 和 了 都 属于 G 组 ， 且 对 于 所 有 gEG 和 xEX， 都 有 exea, 
则 可 以 称 函 数 f X> Y HEERE PRR, 

发 生 卷 积 操作 时 ， 如 果 g 为 任意 一 个 函数 ， 当 卷 积 函数 的 输入 被 函数 g 改变 时 ， 其 输出 也 会 
以 相同 的 方式 改变 ， 则 卷 积 函数 对 函数 g 等 变 。 例 如 ， 令 函数 了 表示 图 像 坐 标 中 任意 一 点 的 明度 
值 ，h 为 男 一 个 函数 ， 它 将 一 个 图 像 函 数 映射 到 男 一 个 图 像 函数 ， 表 达 式 如 下 所 示 : 


l'=h(D) 
其 中 图 像 函 数 了 将 I 中 的 所 有 像素 向 右 移动 5 个 单位 (函数)。 因 此 有 如 下 等 式 : 
i,j) = (i-5,/) 
现在 先 将 这 个 变换 应 用 到 7 上 ， 然 后 对 结果 进行 卷 积 ， 得 到 的 输出 与 先 对 也 进行 卷 积 再 将 变 
换 函 数 应 用 到 有 是 一 样 的 。 


在 图 像 处 理 中 ， 卷 积 运算 会 发 现 输入 数据 中 所 有 确定 的 特征 ， 并 输出 一 个 二 维 图 像 。 因 此 ， 
与 前 文 的 示例 类 似 , 如果 将 输出 中 的 对 象 以 固定 的 比例 移动 , 那么 输出 表征 也 将 以 相同 的 比例 移 
动 。 这 个 概念 在 某 些 情况 下 非常 有 用 , 例如 , 假设 有 一 张 两 支 板 球 队 的 球员 的 合照 ,那么 可 以 在 
图 像 中 找到 某 个 共同 特征 ( 如 球衣 ) 来 区 分 一 部 分 球员 。 类 似 的 特征 也 必然 存在 于 别人 的 工 恤 上 。 
因此 ， 在 整个 图 像 中 共享 参数 是 相当 实用 的 。 


卷 积 还 有 助 于 处 理 一 些 特 殊 类 型 的 数据 ,而 这 对 于 传统 的 、 具 有 固定 形式 的 矩阵 乘法 来 说 是 
十 分 困难 ， 甚 至 是 不 可 能 的 。 


3.3.3 ”为 卷 积 层 选择 超 参 数 
到 目前 为 止 , 我 们 已 经 解释 了 卷 积 层 中 的 每 个 神经 元 是 如 何 连 接 到 输入 图 像 的 。 本 节 将 探讨 
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如 何 控制 输出 图 像 的 大 小 ， 即 控制 输出 图 像 中 的 神经 元 数量 及 其 排列 方式 。 
一 般 来 说 ， 用 于 控制 卷 积 层 输出 图 像 大 小 的 超 参数 有 3 个 ,分别 是 深度 、 步 长 和 零 填 充 。 


我 们 如 何 知道 应 该 使 用 多 少 个 卷 积 层 ? 滤波 器 的 大 小 应 该 是 多 大 ?” 步 长 和 填充 的 值 是 多 
少 ? 这 些 都 是 非常 主观 的 问题 , 其 解决 方案 本 质 上 毫 不 简单 。 研究 人 员 并 没有 给 这 些 超 参数 的 选 
择 设置 标准 。 神 经 网 络 在 很 大 程度 上 依赖 于 训练 所 使 用 的 数据 类 型 。 这 些 数 据 的 大 小 、 输 入 原始 
图 像 的 复杂 性 、 图 像 处 理 任务 的 类 型 以 及 许多 其 他 标准 都 是 不 同 的 ,处 理 大 数据 集 的 一 般 思 路 是 : 
必须 考虑 如 何 选 择 超 参 数 来 推断 出 正确 的 组 合 , 从 而 在 合理 范围 内 创建 图 像 的 抽象 。 本 节 将 对 这 


些 问 题 进行 讨论 。 





















































1. 深度 


深度 是 输出 图 像 中 的 一 个 重要 参数 。 深 度 对 应 滤波 器 的 数量 , 我 们 会 将 这 些 滤 波 器 应 用 于 每 
个 学 习 迭 代 中 输入 的 某 些 变化 。 如 果 第 一 个 卷 积 层 将 原始 图 像 作 为 输入 , 那么 沿 深度 维度 的 多 个 
中 经 元 可 能 会 在 各 种 明度 值 或 不 同 定向 边缘 的 刺激 下 被 激活 。 相 同 输入 区 域 中 的 神经 元 集合 称 为 
深度 列 。 

2. 步 长 

步 长 指 围 绕 空间 维度 ( 宽度 和 高 度 ) 分 配 深度 列 的 策略 。 它 控制 滤波 器 在 输入 图 像 上 的 卷 积 
行为 。 步 长 可 以 定义 为 滤波 器 在 卷 积 过 程 中 的 移动 距离 。 理 想 情 况 下 ， 步 长 的 值 应 该 是 整数 ， 而 
不 是 分 数 。 从 理论 上 来 说 ， 该 数值 有 助 于 决定 在 进入 下 一 层 前 需要 保留 的 输入 图 像 信息 的 大 小 。 
步 长 越 大 ， 需 要 为 下 一 层 保留 的 信息 就 越 多 。 

例如 ， 当 步 长 为 ! 时 ,一 个 新 的 深度 列 被 分 配 到 一 个 单元 的 空间 位 置 。 因 为 各 个 深度 列 之 间 
的 感受 野 有 大 量 重合 ,所 以 会 产生 大 量 的 输出 图 像 。 男 一 方面 ， 如 果 步 长 增 大 ， 则 感受 野 之 间 的 
重合 会 减少 ， 从 而 导致 输出 图 像 的 尺寸 较 小 。 

我 们 举 一 个 示例 来 简化 这 个 概念 。 假设 有 一 个 7x7 的 输入 图 像 和 一 个 3x3 的 滤波 器 ( 为 简单 
起 见 ， 这 里 忽略 深度 )， 且 步 长 为 1。 这 种 情况 下 的 输出 图 像 为 5x5， 如 图 3-7 所 示 。 但 这 看 起 来 
有 些 太 过 简单 。 现 在 将 步 长 设 为 2， 保 持 其 他 参数 不 变 ， 则 输出 图 像 将 具有 较 小 的 3x3 的 大 小 。 
这 种 情况 下 ， 感 受 野 将 移动 2 个 单位 ， 因 此 图 像 的 尺寸 将 缩小 到 3x3: 


Pog 


图 3-7 Vea LET 7x7 的 输入 图 像 中 以 步 长 1 进行 卷 积 ， 产 生 5x5 的 输出 图 像 
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如 图 3-8 所 示 ， 所 有 计算 都 是 基于 本 节 后 面 提 到 的 公式 。 现 在 ， 如 果 想 要 将 步 长 增 大 到 3, 
那么 我 们 很 难 确保 该 感受 野 适 合 输入 图 像 。 理 想 情况 下 , 仅 在 感受 野 的 重 健 应 较 少 时 ,或 者 需要 


较 小 的 空间 维度 时 ， 程 序 员 才 会 加 大 步 长 。 
HHH | 


图 3-8 滤波 器 在 一 个 7x7 的 输入 图 像 中 以 步 长 2 进行 卷 积 ， 产 生 3x3 的 输出 图 像 























































































































3. 零 填充 

目前 我 们 已 经 获得 了 足够 的 信息 ， 可 以 推断 出 ， 随 着 更 多 的 卷 积 层 作用 于 输入 图 像 ， 输 出 图 
像 将 进一步 减 小 。 但 在 某 些 情况 下 ,我 们 可 能 希望 尽 可 能 保留 所 有 原始 输入 图 像 的 信息 ， 以 便 提 
取 边 缘 特征 ， 此 时 可 以 使 用 零 来 填充 输入 图 像 的 边缘 。 

零 填 充 的 大 小 被 视 为 一 个 超级 参数 ， 可 直接 用 于 控制 输出 图 像 的 空间 大 小 。 要 想 精确 保留 输 
和 人 图像 的 空间 大 小 ， 可 以 使 用 零 填 充 。 

例如 , 如 果 将 5x5x3 的 滤波 器 应 用 于 32x32x3 的 输入 图 像 ,那么 输出 图 像 将 减 小 到 28x28x3。 
但 假设 我 们 想 要 使 用 相同 的 卷 积 层 ， 同 时 将 输出 图 像 保 持 为 32x32x3,， 那么 就 应 该 对 该 层 使 用 大 
小 为 2 的 零 填 充 。 这 将 得 到 一 个 36x36x3 的 输出 图 像 ， 如 图 3-9 所 示 。 现 在 ， 如 果 将 5x5x3 的 滤 
波 器 作用 于 3 个 卷 积 层 ， 则 将 产生 32x32x3 的 输出 图 像 ， 从 而 保持 输入 图 像 的 空间 大 小 。 
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图 3-9 输入 图 像 的 尺寸 为 32x32x3 ， 边 界 的 两 个 零 填 充 将 产生 36x36x3 的 输入 图 像 。 
使 用 三 个 5x5x3 的 滤波 右 在 该 图 像 中 以 步 长 1 进行 卷 积 ,从 而 产生 一 个 32x32x3 
的 输出 图 像 
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4. 超 参 数 的 数学 公式 

接 下 来 将 引入 一 个 方程 , 该 方程 可 以 根据 超 参 数 来 计算 输出 图 像 的 空间 大 小 。 该 方程 对 于 卷 
积 神经 网 络 超 参数 的 选择 非常 有 用 ， 因 为 这 是 “ 拟 合 ”网 络 中 神经 元 的 决定 性 因素 。 输 出 图 像 的 
空间 大 小 可 以 写 为 具备 一 系列 参数 的 函数 ， 这 些 参 数 包括 输入 图 像 的 大 小 ( 历 )、 感 受 野 或 卷 积 
层 神经 元 的 滤波 器 大 小 〈 天 )、 步 长 的 值 CS) 以 及 在 边缘 零 填 充 的 数量 CP). 


计算 输出 图 像 空间 大 小 的 方程 如 下 所 示 : 





lee see 


思考 图 3-7 和 图 3-8 中 给 出 的 示例 ， 其 中 W=7, K=3, FH, P=0. FAK 1, A S=1, 


-3+2x0 1- 
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当 步 长 为 2 时 ， 等 式 如 下 所 示 : 


O 3 





AE 


因此 ， 如 图 3-7 所 示 ， 我 们 将 得 到 一 个 空间 大 小 为 3 的 输出 。 但 当 步 长 为 3 时 ， 这 种 配置 将 
不 适合 输入 图 像 ， 因 为 该 方程 的 输出 图 像 将 为 分 数 2.333: 





pC 


+1= 2.333 





这 也 意味 着 超 参 数 的 值 会 相互 约束 。 上 一 个 示例 返回 了 一 个 小 数值 ,因此 超 参 数 将 视 为 无 效 。 
但 是 我 们 可 以 通过 在 边框 周 于 添加 一 些 零 填充 来 解决 这 个 问题 。 




















0 超 参 数 的 空间 布局 是 相互 制约 的 。 


o 零 填 充 的 作用 
前 面 说 过 , 零 填充 的 主要 目的 是 将 输入 图 像 的 信息 保留 到 下 一 层 。 为 了 确保 输入 和 输出 图 像 
拥有 相同 的 空间 大 小 ， 当 步 长 $=1 时 ， 零 填充 的 常规 公式 如 下 所 示 : 


_ 天 -1 
2 


P 


以 图 3-9 给 出 的 示例 为 例 ， 我们 可 以 验证 该 公式 的 真实 性 。 在 该 示例 中 ,WW=32,，K=5，5S=1。 
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因此 ， 为 了 确保 空间 输出 图 像 等 于 32， 我 们 选择 的 零 填 充 数 如 下 所 示 : 


2 


因此 ， 当 P=2 时 ， 和 输出 图 像 的 空间 大 小 如 下 所 示 : 


P 2 





_ G2-5+2x2) 


O +1=32 





因此 ， 该 方程 很 好 地 保证 了 输入 图 像 和 输出 图 像 拥 有 相同 的 空间 维度 。 


3.3.4 ReLUE 


在 卷 积 层 中 , 系统 通过 元 素 乘 法 与 求 和 来 进行 线性 运算 。 深 度 卷 积 通常 执行 卷 积 运算 ， 随 后 
在 每 层 后 再 进行 一 个 非 线性 运算 。 这 是 必 不 可 少 的 , 因为 串联 的 线性 运算 会 产生 另 一 个 线性 系统 。 
在 各 层 之 间 增 加 非 线 性 可 以 使 得 该 模型 比 线性 模型 更 具 表现 力 。 


因此 , 在 每 个 卷 积 层 之 后 ,在 当前 输出 上 应 用 一 个 激活 层 。 激 活 层 的 主要 目的 是 为 系统 引入 
一 些 非 线性 。 现代 卷 积 神经 网 络 使 用 修正 线性 单元 ( Rectified Linear Unit, ReLU ) 作为 激活 函数 。 


在 人 工 神经 网 络 中 ,激活 函数 即 整流 器 ) 的 定义 如 下 所 示 : 


f(x) = max(0, x) 



































其 中 x 是 神经 元 的 输入 。 


操作 整流 器 的 单元 称 为 ReLU。 此 前 ， 网 络 中 使 用 了 许多 非 线性 函数 ， 如 tanh, sigmoid 等 ， 
但 在 过 去 的 几 年 中 , 研究 人 员 已 经 发 现 ReLU 层 的 效果 要 好 得 多 ,因为 它们 可 以 加 快 网 络 的 训练 
速度 ， 而 不 影响 结果 的 准确 性 。 计 算 效率 的 显著 提高 是 一 个 主要 因素 。 


此 外 ， 该 层 增强 了 模型 和 其 他 整体 网 络 的 非 线性 特性 ， 而 不 会 对 卷 积 层 的 感受 野 产生 任何 
影响 。 


2013 年 ，Mass 等 人 84 引 入 了 一 种 新 版 本 的 非 线性 函数 ， 称 为 leaky-ReLU. leaky-ReLU 的 定 
义 如 下 所 示 : 





























Leaky — ReLU(x) = max(0, x) + æ min(0, x) 


其 中 a 是 预 设 参数 。2015 年 ， 他 们 号] 提 出 参数 a 也 可 以 进行 训练 ， 并 更 新 了 这 个 方程 ， 从 而 得 
到 了 一 个 改进 的 模型 。 
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ReLU 相对 于 sigmoid 函数 的 优势 
ReLU 有 助 于 缓解 梯度 消失 问题 (第 1 章 详细 解释 过 )。ReLU 将 前 面 提 到 的 函数 Ko 应 用 于 
输入 图 像 的 所 有 值 ， 并 将 所 有 负 激 活 转换 为 0。 对 于 max 函数 来 说 ， 梯 度 的 定义 如 下 所 示 : 


0 («S<0) 
1 @>0) 





然而 ， 对 sigmoid 函数 来 说 ， 当 增加 或 减 小 x 的 值 时 ， 梯 度 会 逐渐 消失 。 
sigmoid 函数 的 定义 如 下 所 示 : 


1 
l+e™ 





f(x) = 


sigmoid 函数 的 值 域 为 [0,1]， 而 ReLU 函数 的 值 域 为 [0,w%] 。 因 此 ，sigmoid 函数 可 以 对 概率 
进行 建 模 ， 而 ReLU 可 对 所 有 正 数 进行 建 模 。 


3.3.5 AE 


池 化 层 是 卷 积 神经 网 络 的 第 三 层 。 你 可 能 会 选择 在 ReLU 层 后 应 用 池 化 层 。 池 化 层 也 可 以 称 
为 下 采样 层 。 

池 化 函数 主要 用 于 进一步 修改 某 一 层 的 输出 。 该 层 的 主要 功能 是 利用 相 邻 输出 的 汇总 统计 信 
息 来 蔡 换 网 络 在 某 个 位 置 的 输出 。 池 化 层 有 多 个 可 选项 ,而 “最 大 池 化 ”是 最 受 欢迎 的 一 个 。 最 
大 池 化 操作 中 在 矩形 邻 域内 进行 ,并 输出 其 中 的 最 大 值 。 最 大 池 化 需要 一 个 滤波 器 ( 大 小 通常 为 
2x2 )， 步 长 与 其 大 小 相同 ( 也 就 是 2 )。 接 着 将 滤波 器 应 用 于 输入 图 像 ， 并 输出 滤波 器 卷 积 的 每 
个 区 域 的 最 大 数字 。 图 3-10 展示 了 一 个 示例 。 池 化 层 的 其 他 流行 选项 包括 矩形 邻 域 的 平均 L2 正 
则 、 基 于 到 中 心 像素 距离 的 矩形 邻 域 的 平均 值 或 加 权 平 均值 。 
































单个 深度 切片 
































图 3-10 具有 2x2 滤波 器 和 步 长 为 2 的 “最 大 池 化 ”的 示例 〈 图 片 来 自 维基 百科 ) 


如 果 对 相 邻 的 特性 感 兴趣 ， 而 不 是 对 特性 的 确切 位 置 感 兴趣 ,那么 本 地 平移 不 变 
性 是 非常 有 用 的 。 
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池 化 层 的 使 用 场景 


池 化 层 背 后 的 直观 原因 是 , 一 旦 知道 原始 输入 图 像 的 某 个 具体 特征 , 那么 相 比 于 它 与 其 他 特 
征 的 相对 位 置 , 它 在 图 像 中 的 具体 位 置 就 变 得 无 关 紧 要 了 。 在 池 化 的 帮助 下 ， 即 使 输入 图 像 有 小 
幅 平移 ， 其 表征 也 几乎 是 不 变 的 。 这 种 平移 不 变性 意味 着 ， 对 于 输入 图 像 的 少量 平移 来 说 ,大 多 
数 池 化 后 的 输出 值 并 没有 显著 变化 。 


如 果 对 相 邻 特征 而 不 是 特征 的 确切 位 置 感 兴趣 ， 那 么 局 部 平移 不 变性 是 非常 有 益 的 。 然 而 ， 
在 处 理 计算 机 视觉 任务 时 , 使 用 池 化 层 要 格外 小 心 。 虽然 池 化 有 助 于 降低 模型 的 复杂 性 , 但 最 终 
可 能 会 使 得 模型 失去 对 位 置 的 敏感 度 。 


举 一 个 图 像 处 理 的 示例 : 从 图 像 中 识别 出 盒子 。 如 果 只 是 想 要 确定 盒子 是 否 存 在 于 图 像 中 ， 
那么 池 化 层 将 会 有 所 帮助 。 但 如 果 问 题 是 确定 盒子 的 确切 位 置 ,那么 在 使 用 池 化 层 时 必须 要 小 心 。 
另 一 个 示例 是 , 假设 我 们 正在 研究 一 种 语言 模型 ,并 且 对 两 个 单词 之 间 的 上 下 文 相似 性 很 感 兴趣 。 
这 种 情况 下 是 不 能 使 用 池 化 层 的 ， 因 为 这 会 丢失 一 些 有 价值 的 特征 信息 。 


因此 , 可 以 得 出 一 个 结论 : 池 化 层 基本 上 用 于 降低 模型 的 计算 复杂 度 。 如 果 对 一 组 相 邻 特征 
更 感 兴趣 ,那么 池 化 层 更 像 是 一 个 平均 化 的 过 程 。 如 果 损 失 部 分 局 部 信息 无 关 紧 要 ， 则 可 以 应 用 
池 化 层 。 


















































































































































3.3.6 ”全 连接 层 


全 连接 层 是 卷 积 神经 网 络 的 最 后 一 层 。 该 层 的 输入 图 像 来 自前 一 个 卷 积 层 、ReLU 或 池 化 层 
的 输出 。 全 连接 层 的 输出 是 N 维 向 量 ， 其 中 N 是 初始 输入 数据 集中 不 同类 的 数量 。 全 连接 层 的 
工作 原理 是 ， 它 接收 上 一 层 的 输出 ,并 识别 出 与 特定 类 最 相关 的 特征 。 例 如 ， 如 果 模 型 在 预测 图 
像 中 是 否 包含 猫 或 鸟 ， 那 么 展示 高 级 特征 〈 如 四 条 腿 或 过 膀 ) 的 激活 图 中 将 具有 较 高 的 值 。 






























































3.4 分 布 式 深 度 卷 积 神经 网 络 


本 闻 将 介绍 一 些 非常 优秀 的 深度 卷 积 神经 网 络 架构 , 它们 使 用 更 大 规模 的 分 布 式 计算 来 克服 
这 些 网 络 面临 的 挑战 。 接 下 来 将 介绍 Hadoop 及 其 YARN 如 何 为 此 问题 提供 充分 的 解决 方案 。 











3.4.1 最 受 欢迎 的 深度 神经 网 络 及 其 配置 


近年 来 ， 卷 积 神经 网 络 在 图 像 识别 方面 取得 了 惊人 的 成 果 。 但 问题 是 ,它们 的 训练 费用 十 分 
昂贵 。 在 一 个 连续 的 训练 过 程 中 ， 卷 积 操作 占 总 运行 时 间 的 95% 左 右 。 当 使 用 大 数据 集 时 ， 即 
使 采用 分 布 式 训练 方式 ,训练 过 程 也 需要 好 几 天 才能 完成 。 卷 积 神经 网 络 中 的 佼佼 者 AlexNet 于 
2012 年 在 ImageNet 上 使 用 了 两 个 GTX 580 3GB GPU 显卡 ， 但 仍旧 花费 了 近 一 周 的 时 间 来 训练 
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模型 。 表 3-1 展示 了 最 受 欢 迎 的 几 个 分 布 式 深度 卷 积 神经 网 络 的 配置 及 完成 训练 所 需 的 时 间 。 
表 3-1 分 布 式 深度 卷 积 神经 网 络 的 配置 及 完成 训练 所 需 的 时 间 























模 型 计算 能 数 据 集 R E 训练 时 间 
AlexNet 2 块 NVIDIA GTX 在 ImageNet 数据 上 训练 网 络 ， 8 层 5~6 天 
580 3GB GPU 其 中 包含 1500 多 万 张 高 分 辨 图 
像 ， 一 共有 2.2 万 多 个 类 别 
ZFNet[97] GTX 580 GPU 130 万 张 图 像 , 分 散在 1000 多 个 8 层 12 天 
不 同 的 类 中 
VGG Net[98] 4 $k Nvidia Titan ”该 数据 集 包含 1000 个 类 的 图 19 层 2~3 周 
Black GPU 像 ， 并 分 成 3 MEA: 训练 集 
(1.3MB 图 像 ) 、 验 证 集 (50KB 
AUR) ) 和 测试 集 (100KB 图 像 ， 











其 中 保留 了 类 标签 ) 










































































GoogLeNet[99] ”一 些 高 端 GPU 120 万 张 用 于 训练 的 图 像 如 果 仅 计算 带 有 参数 的 层 ,， 那 ”一周 之 内 
么 网 络 有 22 层 (如 加 上 池 化 
层 , 则 一 共 27 层 ) 。 用 于 构建 
网 络 的 总 层 数 ( 独立 的 构建 块 ) 
约 为 100 个 
Microsoft 8 de GPU 在 128 万 图 像 上 训练 , 并 在 5 万 ”152 层 2~3 周 
Rese 100] 张 图 像 上 进行 验证 











3.4.2 ”训练 时 间 深度 神经 网 络 面临 的 主要 挑战 


从 表 3-1 可 以 明确 地 推断 出 ,研究 人 员 已 经 付出 了 许多 努力 来 提高 结果 的 准确 性 。 该 表 体 现 
了 一 个 关键 点 ， 即 网 络 层 数 已 成 为 提高 精度 的 主要 标准 之 一 。 微 软 的 ResNet 使 用 了 一 个 深度 为 
152 层 的 神经 网 络 ,， 这 是 一 个 非常 优秀 的 深度 神经 网 络 。2015 年 ， 该 架构 在 深度 卷 积 神经 网 络 的 
分 类 、 本 地 化 和 目标 检测 方面 创造 了 许多 新 的 纪录 。 除 此 之 外 ，ResNet 也 赢得 了 2015 年 的 
ILSVRC， 错 误 率 只 有 惊人 的 3.6% 。 






































虽然 深度 卷 积 网 络 几乎 快 达到 预期 的 精度 , 但 几乎 所 有 深度 卷 积 神经 网 络 中 的 主要 关注 点 是 


表 3-1 的 最 右 列 。 因 此 ， 这 表明 目前 训练 深度 卷 积 神经 网 络 的 挑战 是 建立 一 个 大 规模 的 分 布 式 框 
架 ， 以 便 在 一 个 快速 的 互联 网 络 上 在 多 个 CPU 和 GPU 上 进行 并 行 训 练 。 











3.4.3 将 Hadoop 应 用 于 深度 卷 积 神经 网 络 


本 节 将 介绍 如 何 使 用 Hadoop 实现 大 规模 的 分 布 式 深度 模型 ， 以 加 快 处 理 速度 。 
卷 积 神经 网 络 的 运行 时 间 可 分 为 以 下 两 大 类 
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a 网 络 中 的 所 有 卷 积 层 消耗 约 90%~95% 的 计算 量 。 它 们 使 用 大 约 5% 的 参数 ， 并 且 具 有 很 
KRIE. V 
O 剩余 约 5%~10% 的 计算 由 全 连接 层 消耗 。 它 们 使 用 近 95% 的 参数 ， 并 具有 较 小 的 表征 。 


Alex Krizhevsky 提出 了 一 种 使 用 分 布 式 架 构 训 练 卷 积 神经 网 络 的 算法 M1。 在 传统 的 卷 积 神 
经 网 络 中 ， 卷 积 操作 几乎 消耗 了 所 有 的 计算 时 间 ， 因 此 ,数据 并 行 可 用 于 加 速 训练 。 然 而 ,对 全 
连接 层 来 说 ， 更 建议 使 用 模型 并 行 的 方法 。 本 节 将 使 用 Hadoop 及 其 YARN 来 解释 该 算法 。 


在 Hadoop 中 ， 分 布 式 系统 的 工作 者 在 HDFS 的 每 个 块 上 并 行 地 处 理 数据 。 我 们 从 原始 输入 
图 像 中 选 出 一 个 小 批量 数据 ( 1024 个 样本 )， 并 将 它们 保存 在 HDFS 的 X 个 块 中 。 因 此 ， 每 个 小 
批量 数据 会 被 W 个 工作 者 处 理 。HDFS 的 每 个 块 的 大 小 为 天。 现在 的 问题 是 : 天 的 值 是 多 少 ? 虽 
然 较 小 的 天 能 增加 块 的 数量 并 加 快 训练 速度 ， 但 大 量 的 天 将 导致 NameNode 中 的 元 数据 量 增加 。 
这 里 的 主要 缺点 是 Hadoop 的 单 点 故障 (single point of failure, SPOF ) $", 24 NameNode 的 内 存 
不 足 时 ， 就 很 容易 发 生 这 种 情况 。 然 而 ， 当 天 的 值 较 大 时 ，HDFS 块 的 数量 就 会 减少 ， 进 而 并 行 
运行 的 工作 者 数量 就 会 减少 ,而 这 又 会 导致 训练 过 程 很 缓慢 。 因 此 , 选择 合适 的 天 值 时 需要 考虑 
以 下 几 点 因素 。 


口 NameNode 主 内 存 大 小 的 可 用 性 。 

D 每 批 输入 数据 的 大 小 和 计算 每 个 数据 块 的 复杂 度 。 

口 数据 中 间 结 果 的 价值 。 基 于 这 些 标准 ， 可 以 设 定 块 的 复制 因子 。 然 而 ， 复 制 因 子 越 高 ， 
NameNode 的 负载 也 就 越 高 。 


HDFS 的 块 分 布 在 Hadoop 的 所 有 DataNode 节点 上 ，YARN 将 直接 对 其 进行 并 行 操作 。 
卷 积 层 的 分 布 式 训练 的 步 又 如 下 所 示 。 


(1) 每 个 块 CENS) 都 包含 了 不 同 的 一 小 批 数据 ， 即 来 自 原 始 输入 图 像 的 1024 个 示例 。 
(2) 作用 于 每 个 块 的 滤波 器 与 步 长 大 小 相同 ， 因 此 单个 空间 的 输出 仅 取决 于 它 的 输入 。 

(3) ReLU 并 行 、 同 步 地 作用 于 所 有 块 ， 以 获得 非 线 性 输出 结 

(4) 根据 输出 的 必要 性 ， 可 将 最 大 池 化 或 其 他 下 采样 算法 应 用 于 某 些 单独 的 数据 块 。 

(5) 将 N 个 块 每 次 迭代 的 输出 ( 变换 后 的 参数 ) 发 回 到 名 为 资源 管理 器 (Resource Manager ) 
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的 主 节 点 ,它们 的 参数 会 在 主 节点 上 平均 化 。 随 后 , 更 新 后 的 参数 发 送 回 N 个 块 中 ,以 便 重复 执 
行 该 操作 。 


(6) 重复 步骤 (2)~(5)， 直 到 达到 预定 的 迭代 次 数 。 


对 全 连接 层 来 说 ， 作 用 于 N 个 块 中 任意 一 个 (一 小 批 输入 图 像 ) 的 个 工作 者 之 一 ,会 将 
上 一 步 的 卷 积 结果 发 送 给 所 有 其 他 ( N-1 个 ) 工作 者 。 接 下 来 ， 所 有 工作 者 将 对 1024 个 样本 的 
第 一 批 数据 执行 全 连接 操作 ,然后 将 它们 的 梯度 值 进 行 反 向 传播 。 在 执行 此 操作 的 同时 ,下 一 个 
工作 者 将 其 上 一 步 的 卷 积 结果 发 送 给 其 他 工作 者 , 这 与 之 前 的 情况 类 似 。 所 有 的 工作 者 将 再 次 对 
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1024 个 样本 的 第 二 批 数 据 执行 全 连接 操作 。 该 过 程 将 不 断 迭 代 ， 直 到 结果 的 误差 达到 期 望 的 最 
小 值 。 
在 这 种 方法 中 , 工作 者 向 其 他 所 有 工作 者 传播 各 自 上 一 步 的 卷 积 结果 。 这 种 方法 的 主要 优点 


是 ， 可 以 压缩 很 大 一 部 分 通信 ( (N-1)/N ), 并 且 可 以 和 全 连接 层 的 计算 并 行 运行 。 该 方法 在 网 络 
的 通信 方面 非常 有 优势 。 


因此 , 很 显然 , 在 HDFS 和 Hadoop YARN 的 帮助 下 ，Hadoop 可 以 为 卷 积 神经 网 络 提供 分 布 
式 环境 。 


熟悉 了 如 何 利用 Hadoop 对 分 布 式 模型 进行 并 行 化 后 , 接 下 来 将 讨论 每 个 工作 者 在 每 个 HDFS 
块 上 是 如 何 编码 的 。 










































































3.5 使 用 Deeplearning4j 构建 卷 积 层 


本 节 将 展示 如 何 使 用 Deeplearning4j 为 卷 积 神经 网 络 编写 代码 。 你 将 了 解 使 用 本 章 提 到 的 各 
种 超 参 数 的 语法 。 


使 用 Deeplearning4j 实现 卷 积 神经 网 络 可 以 分 为 3 个 核心 阶段 : 加 载 数据 或 准备 数据 、 网 络 
配置 ， 以 及 模型 的 训练 和 评估 。 





















































3.5.1 加 载 数 据 


一 般 来 说 ， 我 们 只 用 图 像 数据 来 训练 卷 积 神经 网 络 模型 。 在 Deeplearning4j 中 ， 可 以 使 用 
ImageRecordReader 类 读 取 图 像 。 以 下 的 代码 片段 显示 了 如 何 为 模型 加 载 16x16 的 彩色 图 像 ; 


RecordReader imageReader = new ImageRecordReader(16, 16, false); 
imageReader.initialize(new FileSplit (new 
File(System.getProperty("user.home"), "image_location"))); 


除 此 之 外 , 还 可 以 使 用 CSVRecordReader 类 从 CSV 文件 中 加 载 所 有 图 像 的 标签 , 如 下 所 示 : 


int numLinesToSkip = 0; 

String delimiter = ","; 

RecordReader labelsReader = new 
CSVRecordReader ( (numLinesToSkip, delimiter); 
labelsReader.initialize(new FileSplit (new 
File(System.getProperty ("user.home"),"labels.csv_file_location") ) 


可 以 使 用 ComposableRecordReader 类 将 图 像 与 标签 数据 合并 。 当 要 合并 多 个 数据 源 的 数 
据 时 ， 也 可 以 使 用 该 类 : 


























ComposableRecordReader (imageReader, labelsReader) ; 
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同样 ， 如 果 在 某 些 情况 下 需要 将 imageset 替换 成 MNIST 数据 集 ， 并 加 载 到 模型 中 ， 那 么 可 
以 使 用 以 下 操作 。 此 示例 将 12345 作为 随机 数 种 子 : 








DataSetIterator mnistTrain = new 
MnistDataSetIterator (batchSize,true,12345); 
DataSetIterator mnistTest = new 
MnistDataSetIterator (batchSize, false,12345); 


3.5.2 ”模型 配置 


下 一 步 操 作 就 是 配置 卷 积 神经 网 络 。Deeplearning4j 提供 了 一 个 简单 的 构造 器 ， 可 以 通过 设 
置 不 同 的 超 参数 来 逐 层 定义 深度 神经 网 络 : 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder() 
MultiLayerConfiguration.Builder builder = new 
NeuralNetConfiguration. Builder () 

. seed (seed) 

. iterations (iterations) 

.regularization (true) 

-12(0.0005) 

.learningRate (0.01) 


第 一 层 是 卷 积 层 ， 可 以 通过 convolutionLayer.Builder 方法 调用 。buila() 函数 用 于 
HEZE, stride () 函数 用 于 设置 卷 积 层 的 步 长 : 



























































-layer(0, new ConvolutionLayer.Builder(5, 5) 


nin 与 nout 表示 深度 ，nIn 表示 通道 数 ，nout 表示 作用 于 该 卷 积 层 的 滤波 器 数量 : 





-nin(nChannels) 
.stride(1, 1) 
.nout (20) 


为 了 将 identity 函数 设 为 激活 函数 ,使 用 以 下 方式 对 其 进行 定义 : 








.activation("identity") 
.build()) 


在 第 一 层 后 调用 subsamplingLayer .Builder 方法 来 构建 一 个 最 大 池 化 层 : 





.layer (1, new SubsamplingLayer.Builder (SubsamplingLayer.PoolingType 
. MAX) 

.KkernelSize(2,2) 

.stride(2,2) 

-build()) 











可 以 通过 调用 DenseLayer.Builder() .activation ("relu") 来 增加 一 个 ReLU FE: 











.layer(4, new DenseLayer.Builder() .activation("relu") 
-nOut (500) .build() ) 
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可 以 通过 调用 init () 方 法 对 整个 模型 进行 初始 化 : 


MultiLayerNetwork model = new MultiLayerNetwork (getConfiguration()); 
model.init(); 


3.5.3 ”训练 与 评估 


前 文中 提 到 过 ， 训 练 模型 时 ， 需 要 将 整个 大 数据 集 分 成 多 个 批 次 ， 然 后 模型 将 在 Hadoop 中 


逐 批 处 理 这 些 数据 。 假 设 将 数据 集 分 成 5000 个 批 次 ， 每 批 1024 个 示例 。 接 着 1024 个 示例 将 分 


9 





rt 





Ee SHY TERTA, HY (HEF RecordReaderDataSet Iterator () 方 法 完成 大 数 





据 集 的 拆 分 操作 。 首 先 ， 对 调用 该 方法 所 需要 的 参数 进行 初始 化 : 


int batchSize = 1024; 
int seed = 123; 


int labelIndex = 4; 
int iterations = 1 
令 图 象 中 类 的 数量 为 1 
int numClasses = 10; 


现在 ，RecordReaderDataSetIterator () 的 参数 数量 已 经 设置 完成 ， 我 们 可 以 调用 该 方 





法 来 建立 训练 平台 : 


DataSetIterator iterator = new 
RecordReaderDataSetIterator (recordReader, batchSize, labelIndex, numClasses) ; 
DataSet batchData= iterator.next(); 

batchData.shuffle(); 


在 训练 阶段 ,可 以 将 各 批 数据 随机 分 为 训练 集 和 测试 集 。 如 果 想 要 将 70% 的 样本 作为 训练 集 ， 


am 














oy 


其 余 30% 作 为 测试 集 ， 那 么 可 以 通过 以 下 方式 设置 此 配置 : 


am 





SplitTestAndTrain testAndTrain = batchData.splitTestAndTrain(0.70); 
DataSet trainingData = testAndTrain.getTrain(); 

DataSet testData = testAndTrain.getTest(); 

trainAndTest =batchData.splitTestAndTrain(0.70); 

trainInput = trainAndTest.getTrain(); 


testInput.add(trainAndTest.getTest ().getFeatureMatrix()); 


训练 完 模型 后 ， 可 以 为 每 个 批 次 保存 测试 数据 以 验证 模型 。 因 此 ， 仅 定义 Evaluation 类 








的 一 个 对 象 ， 就 能 收集 整个 数据 集 的 统计 信息 : 


Evaluation eval = new Evaluation(numOfClasses) ; 

for (int i = 0; i < testInput.size(); i++) 

{ 
INDArray output = model.output(testInput.get(i)); 
eval.eval(testLabels.get(i), output); 


64 第 3 章 卷 积 神经 网 络 





至 此 ， 训 练 模型 的 准备 工作 已 经 完成 。 调 用 fit () 方 法 即 可 开始 训练 ， 如 下 所 示 : 








model.fit(trainInput) ; 


3.6 小 结 


虽然 卷 积 神经 网 络 不 是 一 个 新 的 概念 , 但 在 过 去 的 5 年 中 得 到 了 广泛 普及 。 该 网 络 主要 应 用 
于 视觉 领域 。 近 几 年 来 ，Google、 和 人 微软、 苹果 等 技术 公司 以 及 各 大 知名 研究 人 员 对 卷 积 神经 网 络 





进行 了 一 些 重要 研究 。 本 章 首 先 介绍 了 该 网 络 的 核心 概念 一 一 卷 积 , 接 下 来 介绍 了 卷 积 神 

















经 网 络 


的 各 个 层 , 然后 深入 解释 了 深度 卷 积 神经 网 络 的 每 个 层 , 接着 从 理论 和 数学 角度 介绍 了 各 种 超 参 
数 及 其 与 网 络 的 关系 ， 随 后 探讨 了 如 何 借助 Hadoop 及 YARN 实现 分 布 式 深度 卷 积 神经 网 络 ， 最 














后 讨论 了 如 何 为 在 Hadoop 上 工作 的 每 个 工作 者 使 用 Deeplearnings) 实现 该 网 络 。 

















下 一 章 将 探讨 男 一 种 流行 的 深度 神经 网 络 一 一 循环 神经 网 络 。 由 于 能 够 对 可 变 长 度 序列 进行 
建 模 ,循环 神经 网 络 近 来 大 受 欢 迎 。 到 目前 为 止 ,该 网 络 已 可 成 功 解决 语言 建 模 、 手 写 识 别 、 语 

















音 识别 等 问题 。 
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循环 神经 网 络 








“我 觉得 大 脑 本 质 上 就 像 计算 机 ， 而 意识 则 好 比 计 算 机 程序 。 关 掉 计 算 机 时 ， 程序 
就 会 终止 。 理论 上 来 说 ， 可 以 在 神经 网 络 中 重建 意识 ,但 是 难度 非常 大 ， 因 为 这 需要 菜 
个 人 的 全 部 记忆 。” 

一 一 史 节 芬 ， 霍金 


为 了 解决 遇 到 的 每 个 问题 ， 人 们 不 会 从 头 开 始 思考 过 程 。 人 的 思维 是 非 易 失 性 的 ， 类似 于 计 
算 机 的 只 读 存储 器 (Read Only Memory, ROM )。 当 阅读 一 篇 文章 时 ， 我 们 可 以 通过 对 之 前 单词 
的 理解 来 推断 出 句 中 所 有 单词 的 含义 。 


我 们 通过 现实 生活 中 的 一 个 示例 来 进一步 解释 。 假设 我 们 想 要 基于 视频 中 每 个 点 发 生 的 事件 
进行 分 类 。 由 于 没有 视频 的 前 期 事件 信息 ， 对 传统 深度 神经 网 络 来 说 ， 对 这 些 事件 进行 分 类 无 疑 
是 一 项 棘手 的 任务 。 传 统 的 深度 神经 网 络 无 法 执行 这 种 操作 ， 因 此 这 是 它们 的 主要 局 限 之 一 。 


循环 神经 网 络 55 是 一 种 特殊 的 神经 网 络 ， 它 为 这 些 复杂 的 机 器 学 习 和 深度 学 习 问 题 提 供 了 
许多 看 似 神秘 的 解决 方案 。 上 一 章 讨 论 了 卷 积 神经 网 络 ， 该 网 络 专 门 用 于 处 理工 值 的 集合 ( 如 图 
像 )。 同样 ,循环 神经 网 络 也 很 擅长 处 理 X 值 的 序列 ， 如 x(0)，x(1)，x(2)，…，x(r-1)。 为 了 学 习 
循环 神经 网 络 ， 本 章 首先 将 其 与 卷 积 神经 网 络 进行 对 比 ， 以 便 你 了 解 循环 神经 网 络 的 基本 功能 ， 
并 大 体 了 解 这 种 网 络 。 


卷 积 神经 网 络 可 以 轻易 地 扩展 到 宽度 、 高 度 和 深度 值 都 很 大 的 图 像 。 此 外 ,， 某 些 卷 积 神经 网 
络 还 可 以 处 理 不 同 尺 寸 的 图 像 。 


相 比 之 下 , 循环 神经 网 络 可 以 轻易 地 扩展 至 长 序列 数据 , 大 多 数 循环 神经 网 络 也 能 够 处 理 可 
变 长 度 序列 数据 。 为 了 处 理 这 些 任意 的 输入 序列 ， 循 环 神经 网 络 使 用 内 在 内 存 来 完成 这 个 工作 。 

循环 神经 网 络 通常 以 小 批量 的 形式 来 操作 序列 , 并 包含 向 量 x(0), 时 间 步 长 索引 t 的 范围 从 0 
到 (c-1)。 序列 长 度 t 也 可 以 根据 小 批量 中 的 成 员 相 应 变化 。 时 间 步 长 索引 不 光 可 以 表示 现实 世界 
的 时 间 间 隔 ， 也 可 以 指向 序列 内 部 的 位 置 。 


当 按照 时 间 展 开 时 ,循环 神经 网 络 可 以 看 作 具 有 不 确定 层 数 的 深度 神经 网 络 。 然 而 ,与 普通 
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的 深度 神经 网 络 相 比 , 循环 神经 网 络 的 基础 功能 和 架构 还 是 有 些 不 同 的 。 对 于 循环 神经 网 络 来 说 ， 
层 的 主要 功能 是 引入 内 存 , 而 不 是 分 层 处 理 。 对 其 他 的 深度 神经 网 络 来 说 , 只 有 第 一 层 提 供 输入 ， 
输出 由 最 后 一 层 生 成 。 但 在 循环 神经 网 络 中 , 通常 在 每 一 个 时 间 步 长 接收 输入 , 并 在 这 些 时 间 间 
隔 内 计算 出 相应 的 输出 。 随 着 神经 网 络 的 迭代 ,新 信息 会 整合 到 每 一 层 中 ,并 且 网 络 可 以 根据 这 
些 信 息 进行 无 限 次 的 网 络 更 新 。 然 而 ， 在 训练 阶段 ， 循 环 权 值 需要 学 习 哪些 信息 应 该 向 前 传播 ， 
而 哪些 信息 应 该 排除 。 这 种 特性 是 长 短期 记忆 这 种 特殊 形式 的 循环 神经 网 络 产生 的 主要 动机 。 

循环 神经 网 络 几 十 年 前 就 开始 绒 露 头角 "1, 但 最 近 才 成 为 对 可 变 长 度 的 序列 进行 建 模 的 一 
种 流行 方法 。 到 目前 为 止 ， 循 环 神经 网 络 已 成 功 在 很 多 问题 中 实现 ， 如 学 习 文 字 内 舱 [ 1、 语言 
ERDO ER MILER FS es 

本 章 将 探讨 关于 循环 神经 网 络 你 需要 知道 的 一 切 以 及 相关 核心 内 容 。 本 章 后 面 将 介绍 循环 神 
经 网 络 的 一 种 特殊 形式 一 一 长 短期 记忆 。 

























































































本 章 涉 及 的 主题 如 下 : 
口 循环 网 络 与 众 不 同 的 原因 
口 循环 神经 网 络 


口 随时 间 反 向 传播 

口 长 短期 记忆 

口 双向 循环 神经 网 络 

口 分 布 式 深度 循环 神经 网 络 

口 用 Deeplearning4j 训练 循环 神经 网 络 





4.1 循环 网 络 与 众 不 同 的 原因 


你 或 许 对 循环 神经 网 络 的 特性 充满 了 好 奇 。 本 节 将 讨论 这 些 特性 , 后续 会 探讨 这 类 网 络 的 构 
建 块 。 


通过 学 习 第 3 章 的 内 容 , 你 可 能 了 解 了 卷 积 神经 网 络 的 苛刻 限制 , 知道 了 它们 的 API 受 限 较 
多 ; 卷 积 神经 网 络 只 能 接收 固定 尺寸 的 向 量 为 输入 ,并 产生 一 个 固定 尺寸 的 输出 向 量 。 此 外 ,这 
些 操作 是 通过 预先 定义 好 数量 的 中 间 层 来 执行 的 。 循 环 神经 网 络 与 众 不 同 的 主要 原因 是 , 它 能 够 
操作 长 向 量 序列 ， 并 生成 不 同 的 向 量 序列 作为 输出 。 


“如 果 训 练 香草 ?神经 网 络 是 对 函数 进行 优化 , 那么 训练 循环 网 络 则 是 对 程序 进行 优 
化 。” 













































































— Alex Lebrun 














D 香草 指 的 是 标准 反 向 传播 算法 。 一 一 译 者 注 
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图 4-1 展示 了 神经 网 络 不 同类 型 的 输入 一 输出 关系 ， 以 描述 其 区 别 。 以 下 是 5 种 不 同 的 输入 
一 输出 关系 。 


口 一 对 一 。 这 种 输入 一 输出 关系 针对 传统 神经 网 络 处 理 ， 并 不 涉及 循环 神经 网 络 。 主 要 用 

于 图 像 分 类 ， 只 需要 将 固定 尺寸 的 输入 映射 到 固定 尺寸 的 输出 即 可 。 

口 一 对 多 。 在 这 种 类 型 的 关系 中 ， 输 入 和 输出 保持 一 对 多 的 关系 。 模 型 会 根据 固定 尺寸 的 
输入 产生 一 个 输出 序列 。 经 常 可 以 看 到 模型 接收 一 个 图 像 ( 图 像 字幕 ) 作为 输入 ， 并 产 
生 一 个 单词 序列 。 

口 多 对 一 。 在 这 种 类 型 的 关系 中 ， 模 型 接收 一 个 输入 序列 ， 并 输出 单个 观测 值 。 例 如 ， 在 
情感 分 析 中 ， 模 型 接收 一 个 句子 或 者 一 段 评 论 ， 接 着 将 语句 中 所 表达 的 情感 分 类 为 正面 
或 者 负面 。 

O 多 对 多 《可 变 的 中 间 状 态 )。 模 型 接收 一 个 输入 序列 ， 并 生成 一 个 相应 的 输出 序列 。 在 这 
种 类 型 中 ,循环 神经 网 络 读 取 一 个 英文 句子 ， 接 着 将 其 翻译 并 输出 为 德 文句 子 。 这 种 类 
型 常用 于 机 噩 翻 译 领域 。 

口 多 对 多 《固定 数量 的 中 间 状 态 )。 模 型 接收 一 个 同步 的 输入 序列 ， 生 成 一 个 输出 序列 。 例 

如 ， 在 进行 视频 分 类 时 ， 我 们 或 许 希望 对 视频 中 的 每 个 事件 进行 分 类 。 








一 对 一 一 对 多 多 对 一 多 对 多 多 对 多 


ORG) | | 
||) 


图 4-1 5 种 输入 一 输出 关系 。 长 方形 代表 序列 向 量 的 每 个 元 素 ， 箭 头 表 示 函 数 。 绿 色 
表示 输入 向 量 ， 黄 色 表 示 输 出 向 量 ， 紫 色 表 示 循 环 神经 网 络 的 中 间 状 态 。 图 片 
来 自 参考 文献 [111] 
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涉及 序列 的 操作 通常 比 具 有 固定 大 小 的 输入 和 输出 的 网 络 功 能 更 强大 、 前 景 更 好 。 越 来 越 多 
的 智能 系统 使 用 这 些 模型 进行 构建 。 下 一 节 将 讨论 如 何 构建 循环 神经 网 络 ， 以 及 循环 神经 网 络 如 
何 将 输入 向 量 与 其 带 有 定义 函数 的 状态 向 量 相 结合 ， 以 生成 新 的 状态 向 量 。 


4.2 循环 神经 网 络 


本 节 将 讨论 循环 神经 网 络 的 架构 ,主要 讲解 时 间 是 如 何 按照 循环 关系 展开 的 , 以 及 如 何 用 于 
循环 神经 网 络 的 计算 。 
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4.2.1 展开 循环 计算 
本 节 将 阐释 展开 一 个 循环 关系 如 何 导致 一 个 深度 网 络 结构 共享 参数 ， 并 将 其 转化 为 计算 模型 。 
思考 动态 系统 的 一 个 简单 循环 : 





s= fA) 
在 上 述 等 式 中 ，s 人 表示 系统 在 MARE, ORPA RRRA 
该 等 式 称 为 循环 等 式 ， 这 是 因为 计算 SOME sO 返回 的 值 ， 而 SOLEA O, 
类 推 。 


这 是 动态 系统 的 一 个 简单 表示 ， 旨 在 便于 理解 。 青 来 看 一 个 示例 ,其 中 的 动态 系统 受 外 部 信 
号 x 所 驱动 ， 并 产生 输出 yO: 
































s= JEO 
理想 情况 下 ,循环 神经 网 络 遵循 第 二 种 类 型 的 等 式 , 其 内 部 中 间 状态 还 保留 了 前 面 整个 序列 
的 信息 ， 但 其 实 包含 循环 关系 的 任意 等 式 都 可 以 用 于 循环 神经 网 络 建 模 。 
因此 ， 与 前 僻 神 经 网 络 相似 ， 可 以 使 用 1 时 刻 的 变量 h 定 义 循 环 神经 网 络 隐藏 (中间 ) 层 的 
状态 ， 如 下 所 示 : 






































H = fOO) 
后 面 将 介绍 前 面 这 个 等 式 在 循环 神经 网 络 中 的 功能 .截至 目前 , 为 了 说 明 这 个 隐藏 层 的 功能 ， 
图 4-2 显示 了 一 个 没有 输出 的 简单 循环 网 络 。 图 中 左 侧 展示 了 一 个 当前 状态 影响 下 一 个 状态 的 网 
络 。 循 环 中 间 的 框 表示 两 个 连续 时 间 步 长 间 的 延迟 。 















































图 4-2 左 侧 展 示 了 循环 网 络 ， 其 中 信息 随 着 每 个 时 间 步 长 多 次 经 过 隐藏 层 ; 右 侧 展 开 
了 左边 网 络 的 结构 。 网 络 的 每 一 个 节点 与 某 个 时 间 惟 相对 应 
































根据 前 面 的 循环 等 式 , 我 们 可 以 按照 时 间 来 展开 隐藏 状态 。 图 片 右 侧 展示 了 循环 网 络 展开 后 
的 结构 。 可 以 随时 间 将 循环 网 络 展 开 ， 进 而 转化 为 前 馈 网 络 。 


在 展开 后 的 网 络 中 ， 每 个 时 间 步 长 的 每 个 变量 都 可 以 显示 为 网 络 的 一 个 单独 节点 。 
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因此 ,图 4-2 表 明 , 展开 操作 可 以 定义 为 将 左 侧 的 回路 映射 到 右 侧 分 割 为 多 个 状态 的 计算 模型 。 
按照 时 间 展 开 的 模型 的 优点 
按照 时 间 展 开 网 络 这 种 特性 为 模型 提供 了 一 些 优点 ， 主 要 包括 如 下 几 点 。 


口 没有 参数 的 模型 需要 大 量 的 训练 样本 来 满足 学 习 的 目的 。 然 而 ， 学 习 共 享 的 单一 模型 有 
助 于 泛 化 序列 长 度 ， 甚 至 包括 没有 出 现在 训练 集中 的 那些 样本 。 这 使 得 模型 可 以 通过 较 
少 的 训练 样本 来 估计 即将 到 来 的 序列 数据 。 

O 不 管 序列 的 长 度 是 多 少 ， 模 型 的 输入 大 小 保持 不 变 。 展 开 后 的 模型 的 输入 大 小 是 由 从 隐 

藏 状态 到 另 一 状态 的 转换 来 指定 的 。 但 对 其 他 情况 来 说 ， 这 是 根据 历史 状态 的 未 定义 长 

度 指定 的 。 

口 由 于 参数 共享 ， 每 一 个 时 间 步 长 ， 都 可 以 使 用 相同 的 转换 函数 1 及 相同 的 参数 。 






































4.2.2 ”循环 神经 网 络 的 记忆 


到 目前 为 止 ， 你 可 能 已 经 认识 到 ， 前 馈 神 经 网 络 和 循环 神经 网 络 的 主要 区 别 在 于 反馈 回路 。 
反馈 回路 被 吸收 进 自身 的 中 间 结 果 , 作为 下 一 状态 的 输入 。 对 于 输入 序列 的 每 个 元 素 ， 都 会 执行 
相同 的 任务 。 因 此 ， 每 个 隐藏 状态 的 输出 取决 于 之 前 的 计算 。 在 实际 情况 中 ,每 个 隐藏 状态 不 仅 
和 当前 操作 的 输入 序列 有 关 ， 还 与 在 前 一 个 时 间 步 长 感知 到 的 信息 有 关 。 因 此 , 理想 情况 下 , 每 
个 隐藏 状态 都 必须 拥有 前 一 个 时 间 步 长 的 结果 的 所 有 信息 。 


因为 这 种 特性 需要 持久 化 信息 , 所 以 说 循环 神经 网 络 有 自己 的 记忆 。 这 种 序列 信息 作为 记忆 


保存 在 循环 网 络 的 隐藏 状态 中 。 这 有 助 于 处 理 即 将 到 来 的 时 间 步 长 , 因为 网 络 通 过 向 前 传播 来 更 
新 每 个 新 序列 的 处 理 。 















































4-3 显示 了 Elman 于 1990 年 提出 的 简单 循环 神经 网 络 的 概念 中 414， 它 展示 了 循环 神经 网 络 
的 持久 化 记忆 。 




























































































上 下 文 单元 aji yisi xiwi e] F 

























































































图 4-3” 带 有 循环 神经 网 络 记忆 概念 的 简单 循环 神经 网 络 
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在 
个 方 














图 4-3 中 , 底部 单词 序列 AYSXWOF 的 一 部 分 表示 当前 关注 的 输入 相 
匡 表 示 一 个 单元 池 。 向 前 箭头 显示 了 完整 的 可 训练 映射 ( 从 每 个 发 送 输入 的 单元 映射 








例 。 该 输入 样 例 的 每 
到 下 一 


个 时 间 步 长 的 每 个 输出 单元 ) 集合 。 上 下 文 单元 可 以 视 为 持久 化 记忆 单元 , 保存 前 面 时 间 步 长 的 


输出 。 从 隐藏 单元 指向 上 下 文 单元 的 反 向 箭头 展示 了 输出 的 复制 操作 , 用 于 评估 下 一 个 时 


的 输出 结 





[ 间 步 长 





循环 神经 网 络 在 4 时间 步 长 作出 的 决定 主要 取决 于 在 (六 D) 时 间 步 长 作出 的 最 后 决定 。 由 此 可 
以 推断 ， 与 传统 神经 网 络 不 同 ， 循 环 神经 网 络 有 两 个 输入 源 。 








其 中 一 个 输入 源 是 当前 关注 的 输入 单元 , 有 




















I 





图 4-3 中 的 X; 另 一 个 输入 源 是 从 最 近 的 输出 接 


收 到 的 信息 , 这 是 从 图 中 的 上 下 文 单元 中 获得 的 。 两 个 输入 源 结合 起 来 决定 了 当前 时 间 步 长 的 输 


出 。 我 们 将 在 下 一 节 中 继续 讨论 这 一 话题 。 


4.2.3 ”架构 














我 们 已 经 知道 了 循环 神 
循环 神经 网 络 的 通用 架构 及 其 运作 方式 。 








经 网 络 拥有 自己 的 记忆 , 可 以 收集 迄今 为 止 计算 的 信 | 








Bho ARTE 


4-4 展示 了 前 向 计算 中 涉及 的 计算 时 展开 (或 铺 开 ) 的 典型 循环 神经 网 络 。 





展开 或 铺 开 神经 网 络 意味 着 将 完整 的 输入 序列 全 部 写 出 来 。j 
例 。 如 果 有 一 个 10 个 单词 的 序列 ,那么 循环 神经 网 络 会 展开 为 一 个 10 层 的 深度 神 


层 对 应 一 个 单词 ， 如 图 4-4 所 示 。 





解释 该 架构 前 , 我 们 先 看 一 个 示 
经 网 络 ， 每 一 
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图 4-4 ”循环 神经 网 络 展 ] 











从 输入 x 到 输出 o 的 时 间 周 
循环 神经 网 络 的 计算 步骤 和 公式 如 下 所 示 。 
O 在 图 4-4 中 , x 是 在 1 时 间 步 长 的 输入 。 




















于 或 铺 开 为 一 个 完整 的 网 络 


期 分 为 时 间 惟 (1)、t、(t+1)， 以 此 类 推 。 


图 中 展示 了 3 个 时 间 惟 的 计算 : (1-1)、t 和 (+1)， 


其 中 输入 分 别 是 Xl)» Xr All X(t1)o 例如 ， 向 量 Xl 和 X2 相当 于 序列 中 的 第 二 个 单词 和 第 三 个 


单词 o 
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O s, 表 示 在 :时 间 步 长 的 隐藏 状态 。 从 概念 上 讲 ， 这 个 状态 定义 了 神经 网 络 的 记忆 。 从 数学 
上 来 说 ，Yy 的 公式 或 者 携带 记忆 的 过 程 可 以 写成 如 下 形式 : 


S, = (Ux, + Ws,,) 


因此 ， 隐 藏 状态 是 时 间 步 长 x 的 输入 乘 以 权 值 VU， 加 上 上 一 次 时 间 步 长 smi 的 隐藏 状态 乘 以 
其 自身 的 “隐藏 状态 一 隐藏 状态 ”矩阵 丈 的 函数 。“ 隐 藏 状态 一 隐藏 状态 ”矩阵 经 常 称 为 状态 转 
移 矩 阵 ， 与 马尔 可 夫 链 相似 。 权 值 和 矩阵 就 像 过 滤器 ， 决 定 了 过 去 隐藏 状态 和 当前 输入 的 重要 性 。 
当前 状态 产生 的 误差 会 通过 反 向 传播 发 送 回来 以 更 新 权 值 ， 直 到 误差 最 小 化 为 期 望 值 。 





















































Gp 为 了 计算 第 一 个 隐藏 状态 ， 需 要 确定 s-1 的 值 ， 通 常会 将 其 全 部 初始 化 为 0。 





与 传统 深度 神经 网 络 每 层 都 采用 不 同 的 参数 进行 计算 不 同 , 循环 神经 网 络 在 所 有 时 间 步 长 中 
共享 相同 的 参数 ( 这 里 指 的 是 UL VAL 丈 )， 以 计算 隐藏 层 的 值 。 这 使 得 训练 神经 网 络 的 过 程 变 
得 更 加 容易 ， 因 为 我 们 只 需要 学 习 更 少 的 参数 即 可 。 


权 值 输入 和 隐藏 状态 的 总 和 会 通过 函数 /进行 计算 , REP /通常 是 非 线 性 的 ,如 sigmoid 函数 、 
tan 有 或 者 ReLU 激活 函数 。 


O 在 图 4-4 中 ，o, 表 示 时 间 步 长 1 的 输出 。t 时 间 步 长 的 输出 o, 仪 仅 是 基于 1 时 刻 网 络 可 用 的 
记忆 进行 计算 的 。 从 理论 上 来 说 ,虽然 循环 神经 网 络 能 够 对 任意 长 度 的 序列 进行 持久 化 
记忆 ,但 这 实际 上 还 有 些 复杂 ， 因 为 它们 只 能 回顾 到 前 面 的 少数 几 步 。 从 数学 上 来 说 ， 
这 可 以 表示 为 如 下 形式 : 






































O, = softmax (Vs, ) 
下 一 节 将 讨论 如 何 通过 反 向 传播 训练 循环 神经 网 络 。 




















4.3 ”随时 间 反 向 传播 
你 已 经 知道 循环 神经 网 络 的 主要 需求 是 对 顺序 输入 进行 明确 的 分 类 。 误差 和 梯度 下 降 的 反 向 

传播 旨 在 帮助 完成 这 些 任务 。 
在 前 馈 神 经 网 络 中 ,最 终 误差 输出 、 权 值 以 及 每 个 隐藏 层 的 输入 会 沿 着 反方 向 传播 。 反 向 伟 


oa CALI BOR } 配 产生 误差 的 权 值 ，-6E/56w , 其 是 代表 误差 , w 指 的 是 相应 的 
权 值 。 导 数 会 应 用 于 学 习 速 率 ， 梯 度 会 下 降 以 更 新 权 值 ， 从 而 最 小 化 误差 率 。 


然而 ,循环 神经 网 络 不 会 直接 使 用 反 向 传播 , 而 是 使 用 其 定义 为 随时 间 反 向 传播 的 扩展 版 本 。 
本 闻 将 讨论 随时 间 反 向 传播 ， 以 半 释 循环 神经 网 络 是 如 何 训练 的 。 
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误差 计算 

随时 间 反 向 传播 学 习 算 法 是 传统 反 向 传播 算法 的 一 种 自然 延伸 , 它 基 于 一 个 完全 展开 的 神经 
网 络 来 计算 梯度 下 降 。 

4-5 展示 了 展开 循环 神经 网 络 的 每 个 隐藏 状态 的 误差 。 
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图 4-5 ”循环 神经 网 络 每 个 时 间 步 长 所 对 应 的 误差 








用 数学 语言 来 说 ， 每 个 状态 的 误差 可 以 用 如 下 公式 计算 
E, (0,,6,) =—0, log ô, 


其 中 o, 表 示 正 确 的 输出 ，6, 表 示 在 上 时 间 步 长 的 预测 单词 。 整 个 网 络 的 总 误差 〈 cost 函数 ) 等 于 
每 一 个 时 间 步 长 的 所 有 内 部 中 间 状 态 的 误差 之 和 。 


如 果 循 环 神经 网 络 展开 为 从 加 到 i 的 多 个 时 间 步 长 ， 那 么 总 误差 可 以 写 为 如 下 所 示 : 


E ota (61> t,)= È E0.3)= Sa log ô, 


t= 


与 传统 方法 不 同 , 在 随时 间 反 向 传播 的 方法 中 ,梯度 下 降 权 值 是 在 每 一 个 时 间 步 长 中 更 新 的 。 


wj 表示 从 神经 元 i 到 神经 元 j 的 权 值 连接 。 表示 神经 网 络 的 学 习 速 率 。 那 么 在 数学 上 ， 在 
每 个 时 间 步 长 由 梯度 下 降 更 新 的 权 值 可 以 由 下 式 给 出 : 


ca OE ora (h > ta) 
y ôW, 


p OE, 
p 7 ôW, 
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4.4 长 短期 记忆 


本 节 将 讨论 称 为 长 短期 记忆 的 一 个 特殊 单元 , 该 单元 集成 到 了 循环 神经 网 络 中 。 长 短期 记忆 
的 主要 目的 是 防止 循环 神经 网 络 出 现 重大 问题 ， 即 梯度 消失 问题 。 








4.4.1 随时 间 深 度 反 向 传播 的 问题 

与 传统 前 馈 神经 网 络 不 同 , 由 于 用 非常 短 的 时 间 步 长 来 展开 循环 神经 网 络 , 以 这 种 方式 生成 
的 前 馈 神 经 网 络 可 能 会 非常 深 ， 这 使 得 随时 间 反 向 传播 来 训练 网 络 变 得 极其 困难 。 
第 1 章 讨论 过 梯度 消失 问题 。 在 执行 随时 间 反 向 传播 的 操作 时 ,展开 的 循环 神经 网 络 会 面临 
爆发 的 梯度 消失 问题 。 

循环 神经 网 络 的 每 个 状态 依赖 于 它 的 输入 和 它 之 前 的 输出 乘 以 当前 的 隐藏 状态 向 量 。 在 反 向 
传播 过 程 中 , 相反 方向 的 梯度 会 发 生 相同 的 操作 。 展 开 后 的 循环 神经 网 络 的 层 和 多 个 时 间 步 长 通 
过 乘法 相互 关联 ， 因 此 导数 容易 随 着 每 次 传递 而 消失 。 

另 一 方面 ， 当 根据 每 个 时 间 步 长 进行 传递 时 ， 小 的 梯度 会 变 得 更 小 ,而 大 的 梯度 则 会 变 得 更 
大 ， 从 而 分 别 导致 循环 神经 网 络 的 梯度 消失 或 梯度 爆炸 问题 。 











4.4.2 ”长 短期 记忆 


20 世纪 90 年 代 中 期 , 拥有 一 个 特殊 单元 ( 长 短期 记忆 单元 ) 的 循环 神经 网 络 的 改进 版 本 ， 
由 德国 研究 员 Sepp Hochreiter 和 Juergen Schmidhuber 提出 中 19， 用 于 防止 梯度 爆炸 或 梯度 消失 的 
问题 。 


长 短期 记忆 有 助 于 维持 恒定 误差 , 该 误差 可 以 通过 时 间 和 网 络 的 每 一 层 进行 传播 。 保持 恒定 
误差 使 得 展开 后 的 循环 网 络 可 以 基于 一 个 极 深 的 神经 网 络 进 行 学 习 , 即使 是 按照 上 千 个 时 间 步 长 
展开 的 。 这 最 终 打开 了 一 个 通道 ， 以 远程 连接 到 产生 效果 的 原因 。 

长 短期 记忆 的 架构 通过 特殊 内 存单 元 的 内 部 状态 来 维持 一 个 恒定 的 误差 流 。 为 了 便于 理解 ， 
图 4-6 展示 了 长 短期 记忆 的 基本 框图 。 
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图 4-6 长 短期 记忆 的 基本 框图 





























如 图 4-6 所 示 ， 长 短期 记忆 单元 由 用 于 长 时 间 存储 信息 的 记忆 单元 组 成 。 写 入 门 、 读 取 门 和 
遗忘 门 , 这 3 个 专门 的 控制 门神 经 元 控制 对 记忆 单元 的 访问 。 与 计算 机 的 数字 存储 不 同 , 这 些 控 
制 门 本 质 上 是 模拟 物 ， 范 围 从 0 到 1。 相 对 于 数字 设备 来 说 ,模拟 设备 有 一 个 额外 的 优点 ， 即 它 
们 是 可 微 的 , 可 以 用 于 反 向 传播 。 长 短期 记忆 的 控制 门 单 元 不 是 将 信息 作为 输入 传 给 下 一 个 神经 
元 , 而 是 设置 将 神经 网 络 的 其 他 部 分 与 记忆 单元 相连 的 权 值 。 记忆 单元 基本 上 都 是 自 连接 的 线性 
神经 元 。 当 遗忘 门 被 重 置 ( 变 为 0) 时 , 记忆 单元 将 它 的 内 容 写 入 自己 , 并 记 住 上 次 记忆 的 内 容 。 
为 了 成 功 写 入 记忆 单元 ， 遗 忘 门 和 写 入 门 应 该 设置 为 1。 此 外 ， 当 遗忘 门 的 输出 接近 1 时， 记忆 
单元 实际 上 会 忘记 以 前 存储 的 内 容 。 此 时 , 当 设 置 写 入 门 时 , 任何 信息 都 可 以 写 人 它 的 记忆 单元 。 
类 似 地 ， 当 读 取 门 的 输出 为 1 时， 它 会 允许 网 络 的 其 余部 分 从 它 的 记忆 单元 读 取 信息 。 


如 前 所 述 , 计算 传统 循环 神经 网 络 梯度 下 降 的 问题 是 , 在 展开 网 络 中 基于 时 间 步 长 进行 传播 
时 ， 误 差 梯度 会 迅速 消失 。 通 过 添加 一 个 长 短期 记忆 单元 ， 从 输出 反 向 传播 的 误差 值 会 被 收集 到 
长 短期 记忆 单元 的 记忆 单元 中 。 这 种 现象 也 称 为 误差 传输 。 接 下 来 将 通过 示例 来 描述 长 短期 记忆 
是 如 何 克 服 循环 神经 网 络 的 梯度 消失 问题 的 。 


图 4-7 展示 了 一 个 按照 时 间 展 开 的 长 短期 记忆 单元 。 首 先 ， 将 遗忘 门 和 写 入 门 的 值 初始 化 为 
1， 这 会 将 信息 K 写 入 记忆 单元 里 。 写 入 后 ,通过 设置 遗忘 门 的 值 为 0，， 让 该 值 保留 在 记忆 单元 
里 。 接着 将 读 取 门 的 值 设 置 为 1, 这 就 可 以 从 记忆 单元 读 取 并 输出 KK 值 。 从 加 载 K 到 记忆 单元 的 
点 到 从 记忆 单元 读 取 相 同 内 容 的 点 ， 都 遵循 随时 间 进 行 反 向 传播 。 
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图 4-7 ”按照 时 间 展 开 的 长 短期 记忆 ， 描 绘 了 3 种 门 如 何 守卫 记忆 单元 的 内 容 











从 读 取 点 接收 到 的 误差 导数 通过 网 络 反 向 传播 , 并 进行 一 些 名 义 上 的 变化 ,直到 写 和 人 点 为 止 。 
这 是 由 记忆 神经 元 的 线性 特性 导致 的 。 因 此 , 通过 这 个 操作 , 可 以 在 数 百 个 时 间 步 长 中 维持 误差 
导数 ， 而 不 会 陷入 梯度 消失 问题 的 陷阱 中 。 

长 短期 记忆 优 于 标准 循环 神经 网 络 的 原因 有 很 多 ,长 短期 记忆 在 连续 手写 识别 方面 取得 了 较 
好 的 成 果 " ， 而 且 同 样 成 功 地 应 用 于 自动 语音 识别 。 截 至 目前， 全 果 、 微 软 、Google、 百 度 等 
大 型 科技 公司 ,已 开始 广泛 使 用 长 短期 记忆 网 络 作 为 其 最 新 产品 的 主要 组 件 中 1。 












































4.5 双向 循环 神经 网 络 


本 节 将 讨论 循环 神经 网 络 的 主要 限制 和 双向 循环 神经 网 络 , 以 及 这 种 特殊 的 循环 神经 网 络 是 
如 何 克 服 这 些 不 足 的 。 除 了 从 过 去 获取 输入 外 , 双向 神经 网 络 还 可 以 从 未 来 的 环境 中 获取 信息 以 
便 作 出 预测 。 
































4.5.1 循环 神经 网 络 的 不 足 


标准 或 单 向 的 循环 神经 网 络 的 计算 能 力 是 有 限 的 , 这 是 因为 当前 状态 无 法 得 到 其 未 来 的 输入 
信息 。 很 多 情况 下 , 未 来 的 输入 信息 对 序列 预测 极其 有 用 。 例 如 ,在 语音 识别 中 ,由 于 语言 的 依 
赖 性 , 语音 中 某 个 音素 的 正确 翻译 可 能 会 依赖 于 接 下 来 的 几 个 单词 。 手 写 识别 也 可 能 出 现 同样 的 
情况 。 

在 循环 神经 网 络 的 一 些 改进 版 本 中 ， 通 过 在 输出 中 插入 一 定数 量 (V 个 ) 时 间 步 长 的 延迟 ， 
可 以 不 完全 地 实现 该 特性 。 这 种 延迟 有 助 于 捕获 未 来 的 信息 以 预测 数据 。 虽 然 从 理论 上 讲 ， 为 了 
捕捉 到 大 部 分 可 用 的 未 来 信息 ,NN 的 值 可 以 设置 得 非常 大 , 但 在 实际 情况 中 ,模型 的 预测 能 力 会 
NN 过 大 而 下 降 。 论 文 “Bidirectional recurrent neural networks” 0153 对 该 推论 作出 了 一 些 逻 辑 解 
释 。 随 着 N 值 的 增 大 , 循环 神经 网 络 的 大 部 分 计算 能 力 仅 仅 专 注 于 xX, 的 记忆 输入 信息 以 预测 结 
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有 果 ye (如 图 4-8 所 示 ， 图 中 二 表示 当前 考虑 的 时 间 步 长 )。 因 此 ， 模 型 在 组 合 来 自 不 同 输出 向 量 
的 预测 信息 方面 就 显得 力不从心 。 图 4-8 展示 了 不 同类 型 的 循环 神经 网 络 需 要 的 输入 信息 量 。 

















循环 神经 网 络 
向 前 延迟 的 循环 神经 网 络 
向 后 延迟 的 循环 神经 网 络 


























图 4-8 不 同类 型 的 循环 神经 网 络 所 使 用 的 输入 信息 [113] 





4.5.2 ”解决 方案 
为 了 克服 前 文 提 到 的 单 向 循环 神经 网 络 的 局 限 性 ，1997 年 ， 双 向 循环 神经 网 络 问世 03。 
双向 循环 神经 网 络 的 基本 理念 是 将 常规 循环 神经 网 络 的 隐藏 状态 分 成 两 部 分 : 一 部 分 负责 向 
前 传播 状态 〈 正 时 间 方 向 )， 另 一 部 分 负责 向 后 传播 状态 ( 负 时 间 方 向 )。 从 向 前 传播 状态 生成 的 
输出 不 会 与 向 后 传播 状态 的 输入 相连 ， 反 之 亦 然 。 图 4-9 展示 了 基于 3 个 时 间 步 长 展开 的 双向 循 
环 神经 网 络 的 一 个 简单 版 本 。 
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图 4-9 基于 3 个 时 间 步 长 展开 的 双向 神经 网 络 的 传统 结构 


























因为 需要 考虑 到 这 两 种 时 间 方 向 , 所 以 这 种 结构 使 得 当前 考虑 的 时 间 框 架 很 容易 使 用 过 去 和 


将 来 的 输入 信息 。 因 此 ， 当 前 输出 的 目标 函数 最 终 会 最 小 化 ,因为 不 需要 加 入 延迟 以 包含 将 来 的 


信息 。 这 对 上 一 节 中 提 到 的 常规 循环 神经 网 络 来 说 是 十 分 必要 的 。 


到 目前 为 止 ， 双 向 循环 神经 网 络 已 经 在 语音 识别 4、 手写 识别 和 生物 信息 学 等 领域 取得 了 


显著 的 成 功 。 
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4.6 ”分 布 式 深度 循环 神经 网 络 


通过 前 面 的 学 习 , 你 已 经 对 循环 神经 网 络 的 应 用 、 特 性 和 架构 有 所 了 解 ， 接 下 来 将 讨论 如 何 
将 循环 神经 网 络 用 作 分 布 式 架构 。 要 想 分 布 循环 神经 网 络 并 不 是 一 件 容易 的 事 ， 因此 , 过 去 只 有 
少数 研究 员 从 事 这 方面 的 工作 。 虽然 所 有 网 络 的 数据 并 行 概念 是 相似 的 , 但 是 在 多 台 服 务 器 之 间 
分 布 循环 神经 网 络 还 是 需要 一 些 头脑 风暴 的 ， 而 这 也 是 一 项 枯燥 的 工作 。 


最 近 ，Google 的 一 个 项 目 已 经 尝试 在 许多 服务 带 中 架构 用 于 语音 识别 任务 的 循环 网 络 。 
本 节 将 讨论 如 何 借助 Hadoop 进行 有 关 分 布 式 循环 神经 网 络 的 工作 。 


异步 随机 梯度 下 降 可 用 于 循环 神经 网 络 的 大 规模 训练 , 它 在 深度 神经 网 络 的 序列 辨别 训练 方 
面 取得 了 显著 的 成 功 。 


一 个 两 层 的 深度 长 短期 记忆 循环 神经 网 络 可 用 来 构建 长 短期 记忆 网 络 。 每 个 长 短期 记忆 由 
800 个 记忆 单元 组 成 。 相关 论文 为 长 短期 记忆 网 络 使 用 了 1300 万 个 参数 。 对 输入 和 输出 单元 使 用 
了 tanh 函数 ( 双 曲 正切 激活 函数 )， 而 对 写 和 人 门 、 读 取 门 和 遗忘 门 则 使 用 了 逻辑 sigmoid 函数 。 


出 于 训练 目的 , 语音 输入 的 训练 数据 可 以 拆 分 , 并 在 Hadoop 框架 的 多 个 DataNode 进行 随机 
分 发 。 长 短期 记忆 放 在 所 有 这 些 DataNode 上 ， 并 且 分 布 式 训练 在 这 些 数据 集 上 并 行 执行 。 这 种 
分 布 式 训练 使 用 异步 随机 梯度 下 降 法 。 此 外 ,该 训练 还 使 用 了 参数 服务 器 ， 以 维持 所 有 模型 参数 
的 当前 状态 。 


为 了 在 Hadoop 上 实现 这 个 过 程 ,每 个 DataNode 都 必须 在 分 区 数据 上 执行 异步 随机 梯度 下 降 
操作 。 运 行 在 DataNode 每 个 块 上 的 每 个 工作 者 "对 每 个 分 区 进行 处 理 , 一 次 处 理 一 句 话 。 对 于 语 
音 中 的 每 句 话 , 模型 参数 P 从 前面 提 到 的 参数 服务 器 中 获取 。 工作 者 计算 每 一 帧 的 当前 状态 , 通 
过 解码 语音 来 计算 最 终 的 外 部 梯度 , 接着 将 更 新 后 的 参数 发 回 参数 服务 器 。 然 后 工作 者 会 重复 请 
求 参 数 服务 器 来 提供 最 新 的 参数 。 随 后 执行 随时 间 反 向 传播 以 计算 下 一 组 帧 的 更 新 的 参数 梯度 ， 
并 再 次 发 送 回 参数 服务 器 。 































































































4.7 用 Deeplearning4j 训练 循环 神经 网 络 


训练 循环 神经 网 络 不 是 一 个 简单 的 任务 , 有 时 对 计算 要 求 极 其 苛刻 。 训 练 数据 的 长 序列 包含 
非常 多 的 时 间 步 长 ,这 让 训练 变 得 极为 困难 。 到 目前 为 止 , 你 已 经 对 如 何以 及 为 什么 使 用 随时 间 
反 向 传播 训练 循环 神经 网 络 有 了 更 好 的 理解 。 本 节 将 探讨 使 用 循环 神经 网 络 的 一 个 实际 案例 , 该 
案例 利用 Deeplearning4j 来 实现 。 


下 面 举例 说 明 如 何 使 用 循环 神经 网 络 对 电影 评论 数据 集 进行 情感 分 析 。 该 网 络 面临 的 主要 问 









































D 这 里 的 工作 者 指 的 是 Hadoop 中 的 每 个 任务 执行 者 。 一 一 译 者 注 
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题 是 将 电影 评论 的 一 些 原 始 文本 作为 输入 , 并 根据 内 容 将 电影 评论 分 为 正面 情感 和 负面 情感 。 使 
用 Word2Vec 模型 将 原始 评论 文本 的 每 个 单词 转换 为 词 向 量 ， 然 后 输出 到 循环 神 双 该 例 
使 用 的 大 量 原 始 电影 评论 数据 集 来 自 http://ai.stanford.edu/~amaas/data/sentiment/。 


使 用 Deeplearning4j 训练 模型 的 整个 实现 过 程 可 以 分 为 以 下 几 步 。 


(1) 下 载 并 提取 原始 电影 评论 数据 。 

(2) 配置 训练 所 需要 的 网 络 配置 ， 并 评估 其 性 能 。 

(3) 加 载 每 条 评论 并 使 用 Word2Vec 模型 将 单词 转化 为 词 向 量 。 

(4) 执行 预定 义 的 多 次 迭代 训练 。 针 对 每 一 次 迭代 ， 基 于 测试 集 评 佑 其 性 能 。 

(5) 下 载 并 提取 电影 评论 数据 前 ， 先 设置 下 载 配 置 。 以 下 代码 段 设置 了 所 需要 的 全 部 内 容 : 


public static final String DATA_URL = 
"http://ai.stanford.edu/~amaas/data/sentiment/*"; 


(6) 保存 和 提取 本 地 文件 路 径 中 培训 和 测试 数据 的 位 置 设 置 如 下 : 


public static final String DATA_PATH = FilenameUtils.concat 
(System.getProperty("java.io.tmpdir"),local_file_path) ; 


(7) Google News 向 量 的 本 地 文件 系统 的 位 置 设 置 如 下 : 
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public static final String WORD_VECTORS_PATH = 
"/PATH_ TO _YOUR_VECTORS/GoogleNews-vectors-negative300.bin"; 


(8) 以 下 代码 帮助 将 数据 从 Web URL 下 载 到 本 地 文件 路 径 : 


if( !archiveFile.exists() ) 
{ 
System.out.printin("Starting data download (80MB)..."); 
FileUtils.copyURLToFile(new URL(DATA_URL), archiveFile) ; 
System.out.printin("Data (.tar.gz file) downloaded to " + 
archiveFile.getAbsolutePath()); 
extractTarGz(archizePath, DATA_PATH) ; 
} 
else 
{ 
System.out.printlin("Data (.tar.gz file) already exists at " + 
archiveFile.getAbsolutePath()); 
if( !extractedFile.exists()) 
{ 
extractTarGz(archizePath, DATA_PATH) ; 


else 
{ 
System.out.printin("Data (extracted) already exists at " + 
extractedFile.getAbsolutePath()); 
} 
} 
} 


4.7 用 Deeplearning4j 训练 循环 神经 网 络 79 





(9) 


下 载 完 原 始 电 影 数据 后 ， 可 以 继续 设置 循环 神经 网 络 来 执行 这 些 数据 的 训练 。 为 了 达到 








分 布 式 训练 的 目的 ， 下 载 的 数据 会 分 成 若干 个 样本 ， 以 小 批 次 的 形式 提供 给 Hadoop 的 工作 者 使 





用 。 为 此 ， 需 要 声明 变量 pat eno izes 本 例 中 ， 每 批 次 包含 50 个 样本 ， 这 些 样本 将 分 成 多 个 


Hadoop 数据 块 ， 由 工作 者 并 行 运 


int 
int 
int 
int 


batchSize = 50; 

vectorSize = 300; 

nEpochs = 5; 
truncateReviewsToLength = 300; 


MultiLayerConfiguration conf = new 
NeuralNetConfiguration. Builder () 
-optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_ 


DESCENT ) 


. iterations (1) 

.Updater (Updater .RMSPROP) 

.regularization(true) .12(1le-5) 

.weightInit (WeightInit .XAVIER) 
.-gradientNormalization(GradientNormalization 
.ClipElementWiseAbsoluteValue) .gradientNormalizationThreshold(1.0) 
. learningRate (0.0018) 

.list() 

.layer(0, new GravesLSTM.Builder() 


-nIn(vectorSize) 

-nOut (200) 
-activation("softsign") 
-build() ) 


-layer(1, new RnnOutputLayer. Builder () 


-activation("softmax") 

. LossFunction(LossFunctions.LossFunction.MCXENT) 
-nIn(200) 

.nout (2) 

-build() ) 


.pretrain (false) 
.backprop (true) 
.build(); 


Mul 


net. 
net. 


tiLayerNetwork net = new MultiLayerNetwork(conf£) ; 
init(); 
setListeners(new ScorelIterationListener(1)); 





(10) 设置 完 循环 神经 网 络 的 网 络 配置 后 ， 可 以 继续 以 下 的 训练 操作 : 


Dat 


aSetIterator train = new AsyncDataSetIterator (new 


SentimentExamplelIterator (DATA_PATH, wordVectors, 


bat 
Dat 


chSize, truncateReviewsToLength,true),1); 
aSetIterator test = new AsyncDataSetIterator (new 


SentimentExamplelIterator (DATA_PATH, wordVectors,100, 
truncateReviewsToLength, false) ,1); 
for( int i=0; i<nEpochs; i++ ) 


{ 


net.fit (train); 


t 


rain.reset(); 
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System.out .brintln("Epocn " + i + " complete. Starting 
evaluation:"); 


通过 以 下 方式 创建 Evaluation 类 的 对 象 来 执行 网 络 的 测试 ; 





Evaluation evaluation = new Evaluation(); 
while(test.hasNext () ) 
{ 
DataSet t = test.next(); 
INDArray features = t.getFeatureMatrix(); 
INDArray lables = t.getLabels(); 
INDArray inMask = t.getFeaturesMaskArray (); 
INDArray outMask = t.getLabelsMaskArray (); 
INDArray predicted = 
net .output (features, false, inMask, outMask) ; 
evaluation.evalTimeSeries (lables, predicted, outMask) ; 
} 


test.reset(); 


System.out.printlin(evaluation.stats()); 


} 


4.8 小结 


与 其 他 的 传统 深度 神经 网 络 相 比 , 循环 神经 网 络 是 特殊 的 ， 因 为 它 能 够 处 理 长 向 量 序列 ,并 
输出 不 同 的 向 量 序列 。 循环 神经 网 络 随 时 间 展开 , 像 前 馈 神经 网 络 一 样 运行 。 循 环 神经 网 络 的 训 
练 由 随时 间 反 向 传播 算法 执行 , 该 算法 是 传统 反 向 传播 算法 的 扩展 。 循环 神经 网 络 的 一 个 特殊 单 
元 称 为 长 短期 记忆 ， 该 单元 有 助 于 克服 随时 间 反 向 传播 算法 的 局 限 性 。 


本 章 还 讨论 了 双向 循环 神经 网 络 , 该 网 络 是 单 向 循环 神经 网 络 的 更 新 版 本 。 因 为 缺乏 未 来 的 
输入 信息 , 所 以 单 向 循环 神经 网 络 有 时 无 法 正确 进行 预测 。 本 章 最 后 还 讨论 了 深度 循环 神经 网 络 
的 分 布 式 ， 及 其 用 Deeplearning4j 实现 的 示例 。 异 步 随机 梯度 下 降 可 用 于 分 布 式 循环 神经 网 络 的 
训练 。 下 一 章 将 讨论 深度 神经 网 络 的 男 一 个 模型 一 一 受 限 玻 尔 兹 曼 机 。 









































































































































“我 无 法 创建 的 事物 正 是 我 无 法 理解 的 。 





Richard Feynman 

截至 目前 ,本 书 只 讨论 了 判别 模型 。 在 深度 学 习 中 , 我 们 可 以 通过 这 些 模型 构建 不 可 观测 变 
量 y 与 观测 变量 x 的 相关 性 。 在 数学 上 可 以 表示 为 PQyx)。 本 章 将 讨论 深度 学 习 中 所 使 用 的 深度 
生成 模型 。 

生成 模型 是 当 给 定 一 些 隐藏 参数 时 , 可 以 随机 生成 一 些 可 观测 数据 值 的 模型 。 该 模型 作用 于 
标签 序列 和 观测 结果 的 联合 概率 分 布 上 。 

生成 模型 用 于 机 器 学 习 和 深度 学 习 , 它 可 以 作为 生成 条 件 概率 密度 函数 的 中 间 步 又 ,或 直接 
根据 概率 密度 函数 构建 观测 值 。 

本 章 将 讨论 的 比较 流行 的 生成 模型 是 受 限 玻 尔 兹 曼 机 。 它 基本 上 是 概率 图 模型 , 也 可 以 解释 
为 随机 神经 网 络 。 
























































随机 神经 网 络 可 以 定义 为 通过 向 网 络 提供 随机 变化 而 产生 的 一 种 人 工 神经 网 络 。 
@ 可 以 通过 多 种 方式 提供 随机 变化 ,例如 提供 随机 权 值 或 给 网 络 中 的 神经 元 设置 随 
机 转移 函数 。 


本 章 将 讨论 一 种 特殊 的 玻 尔 效 曼 机 ， 即 受 限 玻 尔 效 曼 机 ,这 也 是 本 章 的 主要 内 容 。 我 们 将 讨 
论 基 于 能 量 的 模型 与 受 限 玻 尔 效 曼 机 的 关系 及 其 功能 。 然 后 会 介绍 受 限 玻 尔 效 曼 机 的 延伸 一 一 深 
度 信念 网 络 。 接 着 讨论 它们 在 分 布 式 环境 中 的 大 规模 实现 。 最 后 还 将 给 出 使 用 Deeplearning4j 实 
现 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 的 示例 。 

本 童 的 组 织 结构 如 下 所 示 : 
口 基于 能 量 的 模型 
口 玻 尔 兹 曼 机 


口 受 限 玻 尔 效 受 机 
口 卷 积 受 限 玻 尔 兹 曼 机 


























O 深度 信念 网 络 
口 分 布 式 深度 信念 网 络 
口 用 Deeplearning4j 实现 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 





5.1 基于 能 量 的 模型 


深度 学 习 和 统计 建 模 的 主要 目标 是 对 变量 之 间 的 相关 性 进行 编码 。 通 过 了 解 这 些 相关 性 , 模 
型 可 以 根据 已 知 变量 的 值 回答 有 关 未 知 变量 的 问题 。 


基于 能 量 的 模型 通过 识别 能 量 范围 来 收集 变量 间 的 相关 性 ， 能 量 范围 通常 是 衡量 变量 间 
各 配置 相关 性 的 一 种 手段 。 在 基于 能 量 的 模型 中 , 可 以 通过 设置 观测 变量 的 值 并 找到 未 观测 变量 
的 值 来 实现 预测 ， 从 而 将 总 能 量 最 小 化 。 基 于 能 量 的 模型 中 的 学 习 包 括 创 建 能 量 函 数 , 该 函数 将 
低能 量 分 配给 未 观测 变量 的 正确 值 , 并 将 较 高 能 量 分 配给 错误 值 。 可 以 将 基于 能 量 的 学 习 视 为 用 
于 分 类 、 决 策 或 预测 任务 的 概率 估计 的 替代 方法 。 

为 了 明确 基于 能 量 的 模型 的 工作 原理 ， 我 们 来 看 一 个 简单 的 示例 。 

如 图 5-1 所 示 ， 我 们 考虑 可 观测 和 不 可 观测 两 组 变量 ,分 别 表示 为 和 丈 。 图 中 变量 XKR 
示 图 像 中 像素 的 集合 。 变 量 了 是 离散 的 , 包含 分 类 所 需 对 象 的 所 有 可 能 类 别 。 这 里 ,变量 了 由 六 
个 可 能 的 值 组 成 ， 即 飞机 、 动 物 、 人 类 、 汽 车 、 卡 车 以 及 其 他 。 该 模型 用 作 能 量 函 数 ， 来 测量 了 
和 了 之 间 映 射 的 正确 性 。 
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图 5-1 图 中 展示 了 一 个 能 量 模型 ， 该 模型 可 以 计算 观测 变量 和 和 隐 变 量 了 之 间 的 相关 
性 。 图 像 中 的 全 是 一 组 像素 ,了 是 用 于 对 处 进行 分 类 的 级 别 集合 。 模 型 发 现 选 
择 “ 动 物 ” 可 以 使 得 能 量 函 数 最 小 化 。 图 片 源 自 参考 文献 [121] 






































D 即 观测 变量 和 隐 变 量 。 一 一 译 者 注 
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该 模型 约定 ， 小 能 量 值 意味 着 变量 配置 高 度 相关 。 另 一 方面 ， 随 着 能 量 值 的 增 大 ， 变 量 的 不 
相关 性 也 同样 增 大 。 与 变量 和 了 相关 的 函数 称 为 能 量 函 数 ， 表 示 如 下 : 


E(Y,X) 


在 能 量 模型 中 , 输入 X 来 自 于 周围 事物 ,并且 通过 模型 生成 输出 了， 而 输出 了 更 有 可 能 回答 
有 关 观 测 变量 站 的 问题 。 该 模型 需要 产生 从 集合 Y 中 选择 的 值 Y, 这 个 值 可 以 让 能 量 函数 EY, X) 
的 值 最 小 。 数 学 上 的 表示 如 下 : 



































Y' = argmin 
5-1 描述 了 前 面 提 到 的 示例 的 整体 框图 。 
深度 学 习 中 基于 能 量 的 模型 与 概率 有 关 。 概 率 正比 于 e 的 负 能 量 的 需 : 


E(Y,X) 


Yey* 








-E(x) 


D(x) =e 
基于 能 量 的 模型 通过 创建 函数 E(x) 来 间接 定义 概率 。 指数 函数 确保 概率 总 是 大 于 零 。 这 也 意 
RE, 在 基于 能 量 的 模型 中 ,总 是 可 以 根据 观测 变量 和 不 可 观测 变量 自由 地 选择 能 量 函 数 。 虽然 
在 基于 能 量 的 模型 中 一 个 分 类 的 概率 可 以 无 限 趋 近 于 零 ， 但 绝 不 可 能 为 零 。 
上 述 等 式 形式 的 分 布 是 玻 尔 效 曼 分 布 的 一 种 形式 。 因 此 , 基于 能 量 的 模型 通常 称 为 玻 尔 兹 曼 
机 。 下 面 将 介绍 玻 尔 效 曼 机 及 其 各 种 形式 。 









































5.2 RRS 


玻 尔 兹 曼 机 Wl 是 由 对 称 连接 的 类 似 神经 的 单元 构成 的 网 络 ， 用 于 对 给 定数 据 集 进 行 随机 决 
Ro 最初, 引入 玻 尔 兹 曼 机 的 目的 是 学 习 二 元 向 量 的 概率 分 布 。 玻 尔 兹 曼 机 具有 简单 的 学 习 算 法 ， 
可 以 帮助 推 呆 并 得 出 关于 包含 二 元 向 量 的 输入 数据 集 的 有 趣 结论 。 在 具有 多 层 特征 检测 带 的 网 络 
中 ， 学 习 算法 会 变 得 非常 缓慢 ; 然而 ， 如 果 一 次 只 学 习 一 层 特征 检测 器 ， 那 么 学 习 会 快 得 多 。 

为 了 解决 学 习 问 题 , 玻 尔 兹 曼 机 由 一 组 二 元 数据 向 量 组 成 ,并 更 新 各 个 连接 的 权 值 , 使 得 数 
据 向 量 是 在 此 权 值 下 优化 问题 的 较 优 解 。 玻 尔 兹 曼 机 对 这 些 权 值 进行 了 多 次 很 小 的 更 新 , 以 解决 
学 习 问题 。 

玻 尔 兹 曼 机 的 一 个 4 维 二 元 向 量 可 以 定义 为 xe {0,1} 如 上 所 述 , 玻 尔 兹 曼 机 是 一 种 基于 能 
量 的 模型 ， 可 以 使 用 能 量 函 数 来 定义 其 联合 概率 函数 ， 如 下 所 示 : 





















































pts) = SCE) 


在 上 述 等 式 中 ，E(x) 是 能 量 函 数 ，Z 称 为 确定 PO 1 的 配 分 函数 。 玻 尔 兹 曼 机 的 能 量 函 数 
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如 下 所 示 : 
E(x) =—x'Wx —b'x 
其 中 WERE AME, b 是 偏 置 参 数 的 向 量 。 


像 基于 能 量 的 模型 这 样 的 玻 尔 效 曼 机 对 观测 变量 和 不 可 观测 变量 起 作用 。 当 观测 变量 的 数量 
较 少 时 , 玻 尔 兹 曼 机 的 效率 更 高 。 这 种 情况 下 ,不 可 观测 变量 或 隐 变 量 的 表现 如 同 多 层 感 知 机 的 
隐藏 单元 ， 并 在 可 见 单元 中 表现 出 更 阶 的 相互 作用 。 


玻 尔 兹 曼 机 在 隐藏 层 之 间 以 及 可 见 单元 之 间 具 有 层 间 连接 。 图 5-2 展示 了 玻 尔 兹 曼 机 的 示 
意图 。 



























































图 5-2 一 种 简单 玻 尔 效 曼 机 的 图 形 表 示 ， 其 中 无 向 边 表示 节点 之 间 的 相关 性 ，wiy 表 
示 节 点 7 和 j 之 间 的 权 值 。 图 中 展示 了 3 个 隐藏 节点 和 4 个 可 见 节 点 




















玻 尔 兹 曼 机 的 一 个 有 趣 特性 是 , 学 习 规则 不 会 随 着 隐藏 单元 的 增加 而 改变 。 这 有 助 于 学 习 二 
元 特征 ， 以 捕获 输入 数据 的 高 阶 结 构 。 


玻 尔 效 曼 机 可 作为 离散 变量 的 概率 质量 函数 的 通用 逼近 器 。 





在 统计 学 习 中 ， 最 大 化 似 然 估计 ( Maximize Likelihood Estimation，MLE ) 是 通 
过 找到 一 个 或 多 个 参数 值 , 找 出 给 定 观 察 值 的 统计 模型 参数 的 过 程 , 将 通过 参数 
进行 观察 的 可 能 性 最 大 化 。 


5.2.1 REHAT 


玻 尔 兹 曼 机 的 学 习 算法 通常 是 基于 最 大 似 然 估计 方法 的 。 当 使 用 基于 最 大 似 然 估计 的 学 习 规 
则 训练 玻 尔 效 曼 机 时 , 连接 模型 两 个 单元 的 特定 权 值 的 更 新 将 仅 取决 于 这 两 个 单元 。 网 络 的 其 他 
单元 参与 修改 生成 的 统计 信息 。 因 此 , 可 以 在 不 让 神经 网 络 的 其 余部 分 参与 的 情况 下 , 更 新 权 值 。 
换 名 话说， 神经 网 络 的 其 余部 分 只 知道 最 终 的 统计 信息 ， 但 不 知道 统计 信息 是 如 何 计算 得 出 的 。 

































































5.2.2 BURA SULA E 


在 具有 多 个 隐藏 层 的 玻 尔 兹 曼 机 中 ， 网 络 会 极 大 ,这 通常 使 得 模型 的 训练 变 得 很 慢 。 当 玻 尔 
兹 曼 机 的 大 小 也 同时 呈 指 数 级 增长 时 , 它 将 停止 学 习 大 规模 数据 。 如 果 使 用 大 型 神经 网 络 , 那么 
其 权 值 通常 也 会 非常 大 ， 且 均衡 分 布 的 要 求 也 非常 高 。 这 将 造成 玻 尔 兹 曼 机 出 现 严重 问题 ,最 终 
导致 需要 更 长 时 间 才 能 达到 均衡 分 布 的 状态 。 


我 们 可 以 通过 限制 两 层 之 间 的 连通 性 来 克服 这 个 问题 , 并 通过 一 次 学 习 一 个 隐藏 层 来 简化 学 
习 算 法 。 
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深度 学 习 可 以 使 用 一 些 模 块 来 构建 深度 概率 模型 ,而 受 限 玻 尔 兹 曼 机 就 是 “模块 ”的 典型 示 
例 。 受 限 玻 尔 兹 曼 机 本 身 不 是 深度 模型 , 但 可 以 用 作 构 建 其 他 深度 模型 的 基础 模块 。 事实 上 , 受 
限 玻 尔 兹 曼 机 是 无 向 概率 图 模型 ， 由 一 层 观 测 变 量 和 一 层 隐 变量 组 成 ， 可 用 于 学 习 输 入 的 表征 。 
本 节 将 介绍 如 何 使 用 受 限 玻 尔 兹 曼 机 来 构建 许多 更 深层 次 的 模型 。 


我 们 通过 两 个 示例 来 看 看 受 限 玻 尔 兹 曼 机 的 用 例 。 受 限 玻 尔 兹 曼 机 主要 进行 二 元 因子 分 析 。 
假设 一 家 和 餐厅 想 请 客户 以 0~5 分 给 食物 打分 。 如 果 采 用 传统 的 方法 , 我 们 将 尝试 根据 变量 的 隐藏 
因素 来 解释 每 个 食品 和 客户 。 例 如 ， 意 大 利 面 和 烤 宽 面条 这 类 食物 与 意大利 因素 有 很 强 的 联系 。 
爱 限 玻 尔 效 曼 机 则 采用 不 同 的 工作 方法 。 相 较 于 要 求 每 位 客户 对 食品 进行 连续 评级 , 客户 只 需要 
简单 地 提 及 是 否 喜 欢 该 食物 , 然后 受 限 玻 尔 兹 曼 机 将 尝试 推断 各 种 潜在 因素 , 这 将 有 助 于 解释 每 
位 客户 选择 该 食物 的 原因 。 


另 一 个 示例 是 根据 人 们 喜欢 的 电影 类 型 来 猜测 其 将 选择 观看 的 电影 。 假 设 X 先生 在 给 定 的 
一 系列 电影 中 提供 了 他 的 五 个 二 元 偏好 "。 受 限 玻 尔 兹 曼 机 的 工作 就 是 根据 隐藏 单元 激活 他 的 襄 
好 。 因 此 ， 这 种 情况 下 ,这 五 部 电影 将 向 所 有 隐藏 单元 发 送 消息 ,要 求 它们 自我 更 新 。 接 着 , 受 
限 玻 尔 兹 曼 机 将 根据 先前 赋予 X 先生 的 一 些 偏好 ， 以 高 概率 激活 隐 蕊 单元 。 


































































































5.3.1 基础 架构 


受 限 玻 尔 兹 曼 机 是 一 种 仅 有 两 层 的 浅 层 神经 网 络 , 用 作 构 建 深层 模型 的 构建 模块 。 受 限 玻 尔 
兹 曼 机 的 第 一 层 称 为 观察 层 或 可 见 层 , 第 二 层 称 为 潜在 层 或 隐藏 层 。 它 是 一 个 二 分 图 ,观察 层 中 
的 任何 变量 之 间或 潜在 层 中 的 任何 单元 之 间 不 允许 互 连 。 如 图 5-3 所 示 ， 各 层 内 部 没有 通信 。 因 
为 这 种 限制 ， 该 模型 称 为 受 限 玻 尔 兹 曼 机 。 每 个 节点 用 于 处 理 和 输入 的 计算 ,并 通过 对 是 否 传送 该 
输入 进行 随机 ( 随机 确定 ) 决策 来 参与 输出 。 
































D 即 喜欢 和 不 喜欢 。 一 一 译 者 注 





















































图 5-3 一 个 简单 的 受 限 玻 尔 效 曼 机 。 该 模型 是 一 个 对 称 的 二 分 图 ， 其 中 每 个 隐藏 节点 
连接 到 每 个 可 见 节点 。 隐 藏 单 元 表示 为 访 ， 可 见 单元 表示 为 六 











二 分 图 的 顶点 可 以 分 成 两 个 不 相交 的 集合 ， 从 而 让 每 个 边 将 一 个 集合 的 顶点 连接 到 
另 一 个 集合 。 但 是 ,同一 集合 的 顶点 之 间 没 有 连接 。 顶 点 集 通常 称 为 图 的 一 个 部 分 。 





受 限 玻 尔 兹 曼 机 的 两 层 神经 网 络 背 后 的 主要 直观 事实 是 一 些 可 见 的 随机 变量 ( 例如 , 来 自 不 
同 客户 的 食物 评分 ) 和 一 些 潜在 变量 ( 如 美食 、 客 户 国 籍 或 其 他 内 部 因素 )， 受 限 玻 尔 效 曼 机 的 
训练 任务 是 找 出 这 两 组 变量 相互 连接 的 概率 。 





























为 了 定义 数学 意义 上 的 受 限 玻 尔 北 曼 机 的 能 量 函 数 ,我 们 将 由 一 组 ,二 元 变量 共同 构成 的 观 
察 层 表示 为 矢量 vo H ;二 元 随机 变量 构成 的 隐藏 层 或 潜在 层 表示 为 ho 


与 玻 尔 兹 曼 机 类 似 ， 受 限 玻 尔 兹 曼 机 也 是 基于 能 量 的 模型 ， 其 联合 概率 分 布 由 其 能 量 函 数 
确定 : 
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E(v,h) =—a"v-b"h-v Wh 








Hh a, 和 WET, MIKES. 从 图 5-3 中 可 以 看 出 , 模型 分 为 两 组 变量 v 和 hh。 
单元 之 间 的 相互 作用 由 矩阵 WRR o 


5.3.2 PIRRK SILER 


现在 ， 我 们 已 经 知道 了 受 限 玻 尔 效 曼 机 的 基本 架构 ， 本 节 将 讨论 这 个 模型 的 基本 工作 流程 。 
向 受 限 玻 尔 兹 曼 机 提供 一 个 用 于 学 习 的 数据 集 。 模型 的 每 个 可 见 节 点 从 数据 集 的 元 素 中 接收 一 个 
低级 特征 。 例如， 对 灰 度 图 像 来 说 ,最 低级 别 的 元 素 将 是 图 像 的 一 个 像素 值 ， 可 见 节 点 将 接收 该 
像素 值 。 因 此 ， 如 果 图 像 数 据 集 具有 n 个 像素 ,那么 处 理 它们 的 神经 网 络 在 可 见 层 也 必须 拥有 
个 输入 节点 : 
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可 见 层 ME 激活 函数 











图 5-4 受 限 玻 尔 兹 曼 机 计算 的 一 条 输入 路 径 

















现在 ， 我 们 通过 两 层 网 络 传播 一 个 像素 值 p。 在 隐藏 层 的 第 一 个 节点 , p 乘 以 一 个 权 值 w, 
并 加 上 偏 置 。 然 后 将 最 终结 果 反 馈 到 生成 节点 的 输出 的 激活 函数 。 给 定 输 入 像素 p 的 情况 下 , 该 
操作 会 产生 一 个 输出 结果 ， 该 结果 可 以 称 为 通过 该 节点 的 信号 强度 。 图 5-4 展示 了 包含 单个 输入 
的 受 限 玻 尔 兹 曼 机 的 计算 过 程 。 

















f((wxp)+Db)=a 

受 限 玻 尔 效 曼 机 的 每 个 可 见闻 点 与 一 个 单独 的 权 值 相关 联 。 来自 各 个 单元 的 输入 在 一 个 隐藏 
节点 合并 。 来 自 输入 的 每 个 p ( 像素 ) 乘 以 其 相关 联 的 权 值 ， 且 乘积 结果 加 入 偏 置 。 将 该 结果 传 
递 给 激活 函数 以 生成 节点 的 输出 ,图 5-5 展示 了 受 限 玻 尔 兹 曼 机 可 见 层 的 多 个 输入 所 涉及 的 计算 。 
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可 见 层 ”隐藏 层 激活 函数 











图 5-5 具有 多 个 输入 和 一 个 隐藏 单元 的 受 限 玻 尔 效 曼 机 的 计算 图 
图 5-5 显示 了 如 何 使 用 与 每 个 可 见 节点 相关 联 的 权 值 来 计算 隐藏 节点 的 最 终结 果 。 


如 前 所 述 , 受 限 玻 尔 效 曼 机 类 似 于 二 分 图 。 此 外 , 受 限 玻 尔 兹 曼 机 的 结构 基本 上 类 似 于 对 称 
的 二 分 图 ， 因 为 从 所 有 可 见 节点 接收 的 输入 将 会 传递 到 受 限 玻 尔 兹 曼 机 的 所 有 隐藏 节点 。 


对 每 个 隐藏 节点 来 说 , 每 个 输入 p 乘 以 其 相应 的 权 值 w。 因 此 ,对 于 单个 输入 p 和 m 个 隐藏 
单元 来 说 , 输入 将 具有 与 其 相关 联 的 m 个 权 值 。 在 图 5-6 中 , 输入 p 将 具有 3 个 权 值 ， 图 中 总 共 
有 12 个 权 值 : 来 自 可 见 层 的 4 个 输入 节点 和 下 一 层 中 的 3 个 隐藏 节点 。 两 层 之 间 相 关联 的 所 有 
权 值 形成 矩阵 ， 其 中 行 等 于 可 见 节点 ， 列 等 于 隐藏 单元 。 在 图 5-6 中 ， 第 二 层 的 每 个 隐藏 节点 接 
受 乘 以 各 自 权 值 的 4 个 输入 。 然 后 ， 最 终 乘 积 的 总 和 再 加 上 偏 置 。 接 下 来 将 该 结果 通过 激活 函数 
传递 给 下 一 层 ， 从 而 在 每 个 隐藏 层 产 生 一 个 输出 。 图 5-6 展示 了 这 种 场景 下 发 生 的 全 部 计算 。 
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图 5-6 受 限 玻 尔 兹 曼 机 的 多 个 可 见 单元 和 隐藏 单元 所 涉及 的 计算 





堆 释 式 受 限 玻 尔 兹 曼 机 可 以 形成 更 深层 的 神经 网 络 , 其 中 第 一 隐藏 层 的 输出 将 传递 到 下 一 个 
隐藏 层 作 为 输入 。 这 将 通过 一 定数 量 的 隐藏 层 来 实现 传播 , 其 中 隐藏 层 的 数量 与 分 类 的 数量 相同 。 
下 一 节 将 介绍 如 何 将 受 限 玻 尔 兹 曼 机 作为 深度 神经 网 络 来 使 用 。 























5.4 ” 卷 积 受 限 玻 尔 兹 曼 机 


图 像 或 视频 等 较 高 维度 的 输入 对 传统 机 器 学 习 模 型 的 存储 、 计 算 和 操作 都 造成 了 巨大 的 压 
力 。 第 3 章 已 经 展示 了 如 何 使 用 基于 核 函 数 的 离散 卷 积 计算 替换 和 珑 阵 乘法 ， 以 解决 这 些 问题 。 展 
ARK, Desjardins 和 Bengio 已 经 表明 ， 这 种 方法 也 适用 于 受 限 玻 尔 兹 曼 机 。 本 节 将 讨论 该 
模型 的 功能 。 


此 外 , 在 标准 受 限 玻 尔 兹 曼 机 中 ,可 见 单元 通过 不 同 的 参数 和 权 值 与 所 有 隐藏 变量 直接 相关 
联 。 通过 空间 局 部 特征 来 描述 图 像 需 要 的 参数 更 少 , 可 以 更 好 地 概括 信息 。 这 也 有 助 于 从 高 维 图 
像 中 检测 和 提取 相同 的 局 部 特征 。 因 此, 并 不 推荐 使 用 受 限 玻 尔 兹 曼 机 从 图 像 中 检索 所 有 全 局 特 
征 以 进行 物体 检测 , 特别 是 对 高 维 图 像 。 一 种 简单 的 方法 是 从 输入 图 像 中 抽取 小 批量 图 像 数 据 来 
对 受 限 玻 尔 效 曼 机 进行 训练 ,输入 图 像 放置 在 Hadoop DataNode 上 的 块 中 以 生成 局 部 特征 。 使 用 
这 种 方法 实现 的 受 限 玻 尔 效 曼 机 称 为 基于 块 的 受 限 玻 尔 效 曼 机 ， 如 网 5-7 所 示 。 但 这 有 一 定 的 局 
限 性 。 在 Hadoop 分 布 式 环境 中 使 用 基于 块 的 受 限 玻 尔 兹 曼 机 不 遵循 小 批量 数据 的 空间 关系 ， 并 
将 每 个 图 像 的 微 批量 视 为 与 相 邻 块 相互 独立 。 这 使 得 从 相 邻 块 提取 的 特征 是 独立 的 ,并 稍 显 多 余 。 









































































































































图 5-7 受 限 玻 尔 兹 曼 机 的 可 见 变 量 或 可 见 单 元 可 以 与 图 像 的 微 批量 数据 相关 联 ， 以 计 
算 最 终结 果 。 权 值 连接 表示 一 组 滤波 器 
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为 了 处 理 这 种 情况 , 我们 将 使 用 卷 积 受 限 玻 尔 兹 曼 机 , 它 是 传统 受 限 玻 尔 兹 曼 机 模型 的 扩展 。 
卷 积 受 限 玻 尔 效 曼 机 在 结构 上 几乎 和 受 限 玻 尔 效 曼 机 一 样 , 是 一 种 两 层 模型 ,其 中 可 见 和 隐藏 随 
机 变量 构造 为 矩阵 。 因 此 , 在 卷 积 受 限 玻 尔 效 曼 机 中 ,可 以 为 可 见 单元 和 隐藏 单元 定义 局 部 和 邻 
域 。 在 卷 积 受 限 玻 尔 兹 曼 机 中 ,可见 矩阵 表示 图 像 ， 算 阵 的 小 窗口 定义 图 像 的 微 批量 数据 。 卷 积 
受 限 玻 尔 兹 曼 机 的 隐藏 单元 划分 为 不 同 的 特征 图 ,以 便 在 可 见 单元 的 多 个 位 置 定位 多 个 特征 。 特 
征 图 中 的 单元 在 可 见 单元 的 不 同位 置 表示 相同 的 特征 。 卷 积 受 限 玻 尔 兹 曼 机 的 隐藏 单元 和 可 见 单 
元 之 间 的 连接 完全 是 局 部 的 ， 权 值 通常 会 分 割 在 隐藏 单元 的 集合 中 。 

卷 积 受 限 玻 尔 兹 曼 机 的 隐藏 单元 用 于 从 可 见 单元 的 重 盖 微 批量 数据 中 提取 特征 。 此外, 相 邻 
微 批量 数据 的 特征 相互 补充 ， 并 协作 对 输入 图 像 进行 建 模 。 


图 5-8 展示 了 具有 可 见 单元 矩阵 V 和 隐藏 单元 矩阵 再 的 卷 积 受 限 玻 尔 效 曼 机 ,隐藏 单元 矩阵 
H 5 KÂ 3x3 DEAE CBW, Wo, W3, …, Wx ) 连接 。 图 中 隐藏 单元 分 为 K 个 称 为 特征 图 的 子 矩 
Me, BI AMi, Aa, +, Hr。 每 个 隐藏 单元 及 表示 存在 于 可 见 单 元 的 3x3 领域 的 特定 特征 。 




































































图 5-8 ” 卷 积 受 限 玻 尔 效 曼 机 中 涉及 的 计算 








与 基于 块 的 受 限 玻 尔 兹 曼 机 不 同 , 卷 积 受 限 玻 尔 兹 曼 机 在 整个 输入 图 像 或 图 像 的 局 部 区 域 进 
行 训练 ， 以 学 习 局 部 特征 并 利用 重 全 的 微 批 量 数据 的 空间 关系 ,它们 是 以 分 布 式 方式 在 Hadoop 
上 进行 处 理 的。 在 卷 积 受 限 玻 尔 兹 曼 机 中 ， 重 县 微 批量 数据 的 隐藏 单元 相互 依赖 和 配合 。 因 此 ， 
解释 过 的 隐藏 单元 不 需要 在 邻近 的 重 受 微 批 量 数据 中 再 次 解释 。 这 又 有 助 于 减少 特征 元 余 。 
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通过 自 下 而 上 的 方法 逐 层 训练 ,类似 于 全 连接 神经 网 络 的 逐 层 训练 法 。 在 堆 三 式 神经 网 络 中 , 在 
卷 积 受 限 玻 尔 效 曼 机 的 每 个 过 滤 层 后 实现 确定 性 下 采样 方法 。 为 了 下 采样 特征 , AEAEE 
域 中 执行 最 大 池 化 操作 。 如 第 3 章 中 所 述 ， 池 化 层 有 助 于 最 小 化 特征 维度 。 除 此 之 外 ,， 它 使 得 特 
征 能 够 适应 图 片 的 小 位 移 ， 并 有 助 于 传播 更 高 级 别 的 特征 ， 以 扩展 输入 图 像 的 区 域 。 


深度 卷 积 受 限 玻 尔 兹 曼 机 需要 池 化 操作 ,以 减 小 连续 的 每 个 神经 网 络 层 的 空间 大 小 。 虽然 大 
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多 数 传统 卷 积 模型 在 各 种 空间 大 小 的 输入 上 都 可 以 正常 工作 , 但 对 玻 尔 效 曼 机 来 说 , 改变 输入 维 
度 有 些 困 难 , 这 主要 有 两 个 原因 。 首先, 能 量 函 数 的 配 分 函数 随 着 输入 大 小 的 变化 而 变化 。 其 次 ， 
卷 积 网 络 通 过 增加 与 输入 大 小 成 比例 的 池 化 函数 获得 大 小 不 变性 。 但 是 , 扩大 玻 尔 效 曼 机 的 池 化 
区 是 非常 困难 的 。 

对 卷 积 受 限 玻 尔 效 曼 机 来 说 ,位 于 图 像 边界 处 的 像素 也 很 难 利用 ; 更 糟糕 的 是 , 玻 尔 兹 曼 机 
本 质 上 还 是 对 称 的 。 这 可 以 通过 对 输入 隐 式 地 填 零 来 解决 。 记 住 ， 零 填充 输入 通常 由 较 少 的 输入 
像素 驱动 ， 这 些 输入 像素 在 需要 时 可 能 不 会 被 激活 。 































































































深度 信念 网 络 是 最 流行 的 非 卷 积 模型 之 一 , 它 旱 在 2006 年 至 2007 年 间 就 可 以 成 功 部 署 为 深 
EMIS USA), 深度 学 习 的 复兴 可 能 就 是 从 2006 年 发 明 深度 信念 网 络 后 开始 的 。 在 引入 深度 
信念 网 络 前 ， 很 难 优化 深度 模型 。 通 过 更 优 于 支持 向 量 机 的 效率 ,深度 信念 网 络 已 经 表明 深层 模 
型 是 可 以 成 功 的 。 虽 然 与 其 他 生成 或 无 监督 的 学 习 算法 相 比 , 深 度 信念 网 络 的 普及 程度 更 低 一 些 ， 
而 且 如 今 也 很 少 使 用 ， 但 是 它们 在 深度 学 习 史 上 仍然 发 挥 着 非常 重要 的 作用 。 
































0 只 有 一 个 隐藏 层 的 深度 信念 网 络 就 是 受 限 玻 尔 疹 曼 机 。 






































深度 信念 网 络 是 由 多 个 隐 变 量 层 构成 的 生成 模型 。 隐 变量 本 质 上 是 二 元 的 , 但 可 见 单元 可 以 
由 二 元 值 或 实数 值 构成 。 在 深度 信念 网 络 中 ， 某 层 所 有 的 神经 元 与 邻 层 的 所 有 神经 元 相互 连接 ， 
尽管 可 以 存在 具有 稀 玻 连接 单元 的 深度 信念 网 络 。 中 间 层 之 间 没 有 连接 。 如 图 5-9 所 示 ， 深度 信 
念 网 络 基本 上 就 是 由 几 个 受 限 玻 尔 兹 曼 机 构成 的 多 层 网 络 。 顶 部 两 层 间 的 连接 是 无 向 的 。 但 所 有 
其 他 层 之 间 的 连接 是 有 向 的 ， 图 中 箭头 指向 最 靠近 数据 的 层 。 






































图 5-9 ”由 三 个 受 限 玻 尔 兹 曼 机 组 成 的 深度 信念 网 络 
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除了 第 一 层 和 最 后 一 层 , 深度 信念 网 络 的 每 层 都 有 两 个 作用 。 首 先 ,每 层 既 作为 其 前 一 层 的 
隐藏 层 ， 也 作为 其 下 一 层 的 可 见 层 或 输入 。 深 度 信 念 网 络 主要 用 于 聚 类 、 识 别 和 生成 视频 序列 和 
图 像 。 
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念 网 络 的 一 个 神经 网 络 层 。 在 这 种 方法 中 , 首先 训练 受 限 玻 尔 兹 曼 机 ,将 真实 数据 作为 输入 并 对 
其 进行 建 模 。 

一 级 深度 信念 网 络 就 是 受 限 玻 尔 效 曼 机 。 逐 层 贪 禁 训练 法 的 核心 思想 是 ,在 对 m 级 深度 信 
念 网 络 的 项 层 受 限 玻 尔 兹 曼 机 进行 训练 后 ， 在 将 参数 加 入 到 (m+1) 级 的 深度 信念 网 络 中 时 ， 对 参 
数 的 解释 会 变化 。 在 受 限 玻 尔 兹 曼 机 的 层 (m-1) 和 层 m 之 间 ， 层 m 的 概率 分 布 根据 该 受 限 玻 尔 兹 
曼 机 的 参数 来 定义 。 但 对 深度 信念 网 络 来 说 ， 层 m 的 概率 分 布 根据 上 层 的 参数 来 定义 。 该 过 程 
可 以 无 限 地 重复 ， 以 便 与 所 需 的 深度 信念 网 络 层 相连 接 。 
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到 目前 为 止 ， 深 度 信念 网 络 已 经 在 语音 和 电话 识别 1、 信息 检索 、 人 体 运动 建 模 I 等 
众多 应 用 中 取得 了 重大 成 就 ,然而 , 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 顺序 实现 都 存在 各 种 限制 。 
在 使 用 大 规模 数据 集 时 ,由 于 计算 时 间 长 、 对 内 存 性 能 要 求 较 高 等 特点 , 这 两 种 模型 在 应 用 中 体 
现 出 了 各 种 缺陷 。 为 了 处 理 大 数据 , 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 需 要 进行 分 布 式 计算 ,以 提 
供 可 扩展 的 、 连 续 的 、 高 效 的 学 习 。 


为 了 接受 存储 在 计算 机 集群 上 的 大 型 数据 集 , 深度 信念 网 络 应 该 使 用 Hadoop 和 Map-Reduce 
来 实现 分 布 式 学 习 方法 。 参考 文献 [130] 为 受 限 玻 尔 兹 曼 机 的 每 个 级 别 展示 了 一 个 键 值 对 方法 , 其 
中 预 训练 是 在 Map-Reduce 框架 的 分 布 式 环境 中 逐 层 完成 的 。 通 过 对 受 限 玻 尔 兹 曼 机 进行 训练 的 
迭代 计算 方法 ， 完 成 深度 信念 网 络 在 Hadoop 上 的 学 习 。 因 此 ， 深 度 信 和 念 网 络 的 分 布 式 训练 是 通 
过 堆 秋 多 个 受 限 玻 尔 兹 曼 机 实现 的 。 

























































































5.6.1 受 限 玻 尔 兹 曼 机 的 分 布 式 训练 
如 前 几 节 所 述 ， 受 限 玻 尔 兹 曼 机 的 能 量 函 数 如 下 所 示 : 
EQW,h)=-a v-b hv Wh 


将 输入 数据 集 7= {xi=i= 1,2,…, 加 用 于 受 限 玻 尔 兹 曼 机 的 分 布 式 学 习 。 如 前 面 所 述 ， 对 深 
度 信 和 念 网 络 的 学 习 来 说 , 受 限 玻 尔 效 曼 机 的 每 个 级 别 的 权 值 和 偏 置 首先 需要 通过 逐 层 贪 焚 无 监督 
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训练 进行 初始 化 。 分 布 式 训练 的 目的 是 学 习 权 值 以 及 相关 的 偏 置 b 和 c。 对 使 用 Map-Reduce 的 
分 布 式 受 限 玻 尔 兹 曼 机 来 说 ， 每 次 迭代 中 的 每 个 Map-Reduce 任务 都 是 至 关 重要 的 。 


我 们 使 用 Gibbs 采样 进行 矩阵 -矩阵 的 乘法 运算 ， 而 对 于 受 限 玻 尔 效 曼 机 的 训练 ，Gibbs 采样 
将 花费 大 部 分 计算 时 间 。 因 此 , 为 了 缩短 计算 时 间 , 可 以 在 Map 阶段 将 Gibbs 采样 分 配 到 多 个 数 
据 集 上 ， 这 些 数 据 集 在 Hadoop 框架 的 不 同 DataNode 上 运行 。 




















Gibbs 采样 是 一 种 马尔 可 夫 链 蒙特 卡 洛 (Markov chain Monte Carlo, MCMC ) 算 
@ 法 ， 当 传统 的 直接 抽样 难以 实现 时 ， 该 采样 方法 可 用 于 确定 观测 值 序列 ， 这 些 观 
测 值 由 指定 的 多 变量 概率 分 布 进行 估计 。 


首先 , 我 们 将 初始 化 训练 需要 的 所 有 参数 ,如 可 见 层 和 隐藏 层 的 神经 元 数量 、 输 入 层 偏 置 a、 
kaam b, IEW, ERRA ( 假设 为 N)、 学 习 率 等 。 壕 代 的 次 数 意 味 着 Map 和 Reduce K 
BEBE IEIK NW 次 。 对 每 次 迭代 来 说 ，mapper 针对 DataNode 的 每 个 块 运行 ， 并 执行 Gibbs 采样 以 
计算 Wa 和 5 的 近似 梯度 。 接 着 ，reducer 使 用 下 一 次 迭代 所 需要 的 计算 增 量 来 更 新 这 些 参数 。 
因此 ， 从 第 二 次 迭代 起 ，Map 阶段 的 输入 值 以 及 W. a 和。 的 更 新 值 根 据 前 一 次 迭代 中 reducer 
的 输出 来 计算 。 


输入 数据 集 7 被 分 成 多 个 数据 块 ， 并 存储 在 不 同 的 块 中 ， 在 每 个 DataNode 上 运行 。 在 存储 
块 上 运行 的 每 个 mapper 将 计算 存储 在 该 块 上 的 数据 块 的 权 值 和 偏 置 的 近似 梯度 。 接 着 ，reducer 
会 计算 相应 参数 的 增 量 并 更 新 它们 。 该 过 程 将 所 得 到 的 参数 和 更 新 后 的 值 视 为 本 次 迭代 的 
Map-Reduce 阶段 的 最 终结 果 。 每 次 迭代 后 ， 如 果 这 是 最 后 一 次 迭代 ， 那 么 reducer 将 决定 是 否 存 
储 学 习 权 值 ， 否 则 将 决定 是 否 增加 迭代 索引 ， 并 将 键 值 对 的 值 传播 给 下 一 个 mapper. 


















































5.6.2 ”深度 信念 网 络 的 分 布 式 训练 

如 果 需 要 对 具有 工 个 隐藏 层 的 深度 信念 网 络 进行 分 布 式 训 练 , 那么 可 以 通过 预 训 练 工 级 受 限 
玻 尔 效 曼 机 进行 学 习 。 底 层 受 限 玻 尔 兹 曼 机 的 训练 如 之 前 讨论 的 那样 ， 但 对 于 其 余 的 (一 D) 层 受 
限 玻 尔 兹 曼 机 来 说 ,输入 数据 集 在 每 一 层 都 有 所 改变 。 

Bm L>m>l ) 级 受 限 玻 尔 兹 曼 机 的 输入 数据 ,将 是 第 (m-1) 级 受 限 玻 尔 兹 曼 机 的 隐藏 季 
点 的 条 件 概 率 : 











P(Al|x) (m=2) 
P|h,, (L=m>2) 


1. 分 布 式 反 向 传播 算法 


这 是 对 全 局 网 络 进行 调 优 的 反 向 传播 算法 的 分 布 式 训练 的 第 二 阶段 。 在 这 个 过 程 中 , 在 计算 
权 值 的 梯度 时 ,前 馈 和 反 向 传播 方法 占用 大 部 分 的 计算 时 间 。 因 此 ,对 于 每 次 迭代 来 说 , 为 了 更 
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快 地 执行 ， 此 过 程 应 在 输入 数据 集 的 每 个 微 批量 数据 上 并 行 运行 。 


在 该 过 程 的 第 一 步 中 , 工 级 深度 信念 网 络 的 学 习 权 值 ( 即 W, Wao e, Wi ) 被 加 载 到 内 存 中 ， 
同时 其 他 超 参 数 进行 初始 化 。 在 这 个 微调 阶段 , map 和 reduce 阶段 的 主要 工作 类 似 于 受 限 玻 尔 效 
曼 机 分 布 式 训练 。mapper 将 确定 权 值 的 梯度 ， 并 最 终 更 新 权 值 增 量 。reducer 从 一 个 或 多 个 权 值 
更 新 权 值 增 量 ， 并 将 输出 传递 给 mapper 以 执行 下 一 次 迭代 。 

该 过 程 的 主要 目的 是 通过 将 标签 层 放 置 在 全 局 网 络 的 顶层 , 并 迭代 地 调整 整个 层 的 权 值 , 获 
得 模型 的 判别 能 

2. 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 性 能 评估 

参考 文献 [130] 在 Hadoop 集群 上 进行 了 分 布 式 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 的 测试 ， 以 提 
供与 传统 顺序 方法 的 对 比 研究 。 该 实验 是 在 MNIST 数据 集 上 进行 手写 数字 识别 。 训 练 集 有 6 万 
张 图 像 ， 测 试 集 有 1 万 张 图 像 。HDFS 的 块 大 小 设置 为 64MB ， 复 制 因子 为 4。 所 有 节点 都 设置 
为 最 多 运行 26 个 mapper 和 4 个 reducer。 如 果 有 兴趣 的 话 , 你 可 以 修改 块 大 小 和 复制 因子 , 查看 
使 用 这 些 参 数 进行 实验 的 最 终结 果 。 

o 训练 时 间 大 幅 缩 短 

该 实验 的 目的 是 对 比分 布 式 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 与 传统 训练 方法 (顺序 ) 的 训练 
时 间 。 顺 序 程序 在 一 个 CPU 上 执行 ， 而 分 布 式 程序 则 在 一 个 节点 的 16 个 CPU 上 执行 。 两 个 实 
验 都 是 在 前 面 提 到 的 MNIST 数据 集 上 进行 的 。 表 5-1 和 表 5-2 总 结 了 得 到 的 结 


表 5-1 完成 分 布 式 和 顺序 受 限 玻 尔 兹 曼 机 训练 所 需 的 时 间 






































模 型 训练 时 间 
传统 的 受 限 玻 尔 效 曼 机 6 小 时 44 分 
分 布 式 受 限 玻 尔 效 曼 机 1 小 时 13 分 





He 5-2 完成 分 布 式 和 顺序 深度 信念 网 络 训练 所 需 的 时 间 





模 g 训练 时 间 
传统 的 深度 信念 网 络 31 小 时 4 分 
分 布 式 深度 信念 网 络 10 小 时 35 分 





表 中 数据 清楚 地 表明 ， 相 对 于 传统 的 顺序 方法 ， 通 过 Hadoop 使 用 分 布 式 受 限 玻 尔 效 曼 机 和 
深度 信念 网 络 有 很 大 优势 。 模 型 的 分 布 式 方法 的 训练 时 间 相 对 于 顺序 方法 缩短 很 多 。 此 外 , 使 用 
Hadoop 分 布 式 框架 的 另 一 个 关键 优点 是 ， 它 可 以 根据 训练 数据 集 的 大 小 和 用 于 分 布 式 训练 的 机 
需 数 量 恨 好 地 扩展 。 


下 一 节 将 展示 使 用 Deeplearning4j 完成 两 种 模型 的 编程 方法 。 
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本 节 将 介绍 如 何 使 用 eee 编写 
使 用 本 章 中 各 种 超 参 数 的 语 》 








sca 
sav 


/ 


度 信念 网 络 


了 受 限 玻 尔 效 曼 机 和 深度 信念 网 络 的 代码 。 你 将 学 到 



































使 用 Deeplearning4j 实现 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 整体 思路 非常 简单 。 整 个 实现 可 
分 为 三 个 核心 阶段 : 数据 加 载 或 数据 准备 、 网 络 配 置 ， 以 及 模型 训练 和 验证 。 

我 们 将 先 讨论 IrisDataSet 上 的 受 限 玻 尔 兹 曼 机 ， 接 着 讨论 深度 信念 网 络 的 实现 。 
5.7.1 受 限 玻 尔 兹 曼 机 

为 了 创建 和 训练 受 限 玻 尔 兹 曼 机 ， 首 先 需 要 定义 和 初始 化 模型 所 需要 的 超 参数 : 

Nd4j .MAX SLICES_ TO PRINT = -1; 

Nd4j .MAX ELEMENTS PER SLICE = -1; 

Nd4j .ENFORCE NUMERICAL STABILITY = true; 

final int numRows = 4; 

final int numColumns = 1; 

int outputNum = 10; 

int numSamples = 150; 

这 里 的 批量 大 小 可 以 初始 化 为 150， 这 意味 着 数据 集 的 150 个 样本 将 一 次 性 提交 给 Hadoop 


框架 。 确 保 所 有 其 他 参数 都 进行 了 初始 化 ， 


batchSize 
iterations 
seed 123; 
listenerFreq 


接 下 来 ， 


log.info( 


150; 
100; 


iterations/2; 





“Load data ye) 


DataSetIterator iter = new IrisDataSetIterator(batchSize, 


DataSet iris iter.next(); 








创建 作 


这 里 使 用 NeuralNetConfiguration. Builder ( 


机 。 类 似 地 ,， 受 限 玻 尔 效 曼 机 的 对 象 用 于 存储 
线性 变换 : 
NeuralNetConfiguration conf 
.regularization (true) 
-miniBatch (true) 
.layer (new RBM.Builder().12(1e-1) .11(1e-3) 


-nin(numRows * numColumns) 
.nOut (outputNum) 


ReLU 用 作 激 活 因数 


-activation("relu") 





pel 








属性 ， P aA A L 


就 像 我 们 在 前 几 章 中 所 做 的 那样 。 


基于 定义 的 batchsize 和 每 个 批量 数据 的 样本 数量 将 Trisdataset 加 载 到 系统 中 : 


numSamples) ; 


为 神经 网 络 层 的 受 限 玻 尔 效 

















new NeuralNetConfiguration.Builder () 
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weightInit () 困 数 用 于 初始 化 权 值 ， 其 表示 放大 进入 每 个 节点 的 输入 信号 所 需 的 系数 的 初 
始 值 : 


.weightInit (WeightInit .RELU) 
. LossFunction(LossFunctions.LossFunction.RECONSTRUCTION 
_CROSSENTROPY.k(3) 


高 斯 变换 用 于 可 见 单元 ， 修 正 线性 变换 用 于 隐藏 层 。 这 在 Deeplearning4j 中 是 非常 简单 的 。 
我 们 需要 在 .visibleUnit #l.hiddenunit 方法 中 传递 参数 Visibleunit.GAUSSIAN 和 
HiddenUnit.RECTIFIED: 























-hiddenUnit (HiddenUnit .RECTIFIED) .visibleUnit (VisibleUnit .GAUSSIAN) 
.updater (Updater.ADAGRAD) .gradientNormalization (Gradient 
Normalization.ClipL2PerLayer) 

-build()) 
. seed (seed) 
.iterations (iterations) 


反 向 传播 步 长 定义 如 下 : 


. learningRate(1le-3) 

.optimizationAlgo (OptimizationAlgorithm.LBFGS) 

-build(); 
Layer model = LayerFactories.getFactory (conf.getLayer()).create(conf) ; 
model.setListeners (new ScoreIterationListener(listenerFreq) ); 
log.info("Evaluate weights...."); 
INDArray w = model.getParam(DefaultParamInitializer.WEIGHT_KEY) ; 
log.info("Weights: " + w); 


要 想 扩 展 到 数据 集 ， 可 以 使 用 Dataset 类 的 对 象 来 调用 scale(): 


iris.scale(); 


上 一 步 的 验证 完成 后 ,该 模型 现在 完全 可 以 接受 训练 了 。 和 之 前 的 模型 一 样 ,可 以 使 用 fit () 
方法 进行 训练 ， 并 将 get FeatureMatrix 作为 参数 传递 : 




















log.info("Train model...."); 

for(int i = 0; i < 20; i++) 
{ 
log.info("Epoch "+i+":"); 
model.fit(iris.getFeatureMatrix()); 


} 


5.7.2 ”深度 信念 网 络 


如 本 章 所 述 , 深度 信念 网 络 是 大 量 受 限 玻 尔 效 曼 机 的 堆 琶 版 。 本 节 将 展示 如 何 使 用 Deeplearning4 
来 编写 并 部 署 深度 信念 网 络 。 程 序 的 流程 将 遵循 与 其 他 模型 一 样 的 标准 步骤。 使 用 Deeplearning4j 
实现 简单 的 深度 信念 网 络 是 非常 容易 的 ,该 示例 将 展示 如 何 使 用 深度 信念 网 络 训练 和 遍历 输入 的 
MNIST 数据 。 
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对 于 MNIST 数据 集 ， 以 下 代码 指定 了 样本 的 批量 大 小 和 数量 ， 用 户 将 同时 指定 它们 来 加 载 
HDFS 中 的 数据 : 


log.info("Load data...."); 
DataSetIterator iter = new MnistDataSetIterator(batchSize,numSamples, 
true); 


接 下 来 ， 通 过 将 10 个 受 限 玻 尔 兹 曼 机 至 在 一 起 来 构建 该 模型 。 以 下 代码 显示 了 使 用 
Deeplearning4j 的 实现 方式 : 





log.info("Build model...."); 

MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder () 
. seed (seed) 
.iterations (iterations) 
-optimizationAlgo (OptimizationAlgorithm. LINE_GRADIENT_DESCENT) 
-list() 
.layer(0, new RBM.Builder().nIn(numRows * numColumns) .nOut (1000) 
. LlossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(1, new RBM.Builder().nIn(1000) .nOut (500) 
. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(2, new RBM.Builder().nIn(500) .nOut (250) 
. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(3, new RBM.Builder() .nIn(250) .nOut (100) 
. LossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(4, new RBM.Builder().nIn(100) .nOut (30) 
. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(5, new RBM.Builder().nIn(30) .nout (100) 
. LlossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(6, new RBM.Builder().nIn(100) .nOut (250) 
. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(7, new RBM.Builder() .nIn(250) .nOut (500) 
. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(8, new RBM.Builder().nIn(500) .nOut (1000) 
. LossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(9, new OutputLayer.Builder(LossFunctions.LossFunction. 
RMSE_XENT) .nIn(1000) .nOut (numRows*numColumns) .build() ) 
.pretrain (true) 
.backprop (true) 
.build(); 

MultiLayerNetwork model = new MultiLayerNetwork (conf); 

model.init(); 


在 最 后 一 部 分 中 ， 通 过 调用 fit () 方 法 ， 使 用 加 载 后 的 MNIST 数据 集训 练 代码 : 


log.info("Train model...."); 
while(iter.hasNext () ) 
{ 
DataSet next = iter.next(); 
model.fit(new DataSet (next.getFeatureMatrix(),next. 
getFeatureMatrix())); 


} 
一 旦 代码 执行 ， 该 程序 将 给 出 以 下 输出 : 
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Load data.... 

Build model.... 

Train model.... 
o.d.e.u 

o.d.n.m. 
o.d.o.1.ScoreIterationl 
o.d.n.m 
o.d.o.1.ScoreIterationl 
o.d.n.m 
o.d.o.1.ScoreIterationl 
OO oth. Th. 
o.d.o.1.ScoreIterationl 











o.d.n.m 
o.d.o.1.ScoreIterationl 
o.d.o.1.ScoreIterationl 
o.d.n.m 
o.d.o.1.ScoreIterationl 
o.d.n.m 
o.d.o.1.ScoreIterationl 
o.d.n.m 

o.d 
o.d.o.1.ScoreIterationl 
o.d.o.1.ScoreIterationl 





5.8 小 结 

















.d.DeepAutoEncoderExample - Train model.... 
MultiLayerNetwork - Training on layer 1 with 1000 examples 
Listener - Score at iteration 0 is 394.462 
.-MultiLayerNetwork - Training on layer 2 with 1000 examples 
Listener - Score at iteration 1 is 506.785 
-MultiLayerNetwork - Training on layer 3 with 1000 examples 
Listener - Score at iteration 2 is 255.582 
MultiLayerNetwork - Training on layer 4 with 1000 examples 
Listener - Score at iteration 3 is 128.227 


.n.m.MultiLayerNetwork - Finetune phase 
.o.1.ScoreIterationListener - Score at iteration 9 is 132.45428125 


-MultiLayerNetwork - Finetune phase 


Listener - Score at iteration 31 is 
Listener - Score at iteration 32 is 


-MultiLayerNetwork - Training on layer 1 with 1000 


Listener - Score at iteration 33 is 


.-MultiLayerNetwork - Training on layer 2 with 1000 


Listener - Score at iteration 34 is 


-MultiLayerNetwork - Training on layer 3 with 1000 


.n.m.MultiLayerNetwork - Finetune phase 
Listener - Score at iteration 658 is 142.4304375 
Listener - Score at iteration 659 is 142.4311875 


135.949859375 
135.9501875 
examples 
394.182 
examples 
508.769 
examples 


受 限 玻 尔 效 曼 机 是 一 种 生成 模型 ， 当 提供 一 些 洪 在 或 隐藏 的 参数 时 , 它 可 以 随机 生成 可 见 数 
据 值 。 本 章 讨论 了 玻 尔 兹 曼 机 的 概念 和 数学 模型 , 它 是 一 种 基于 能 量 的 模型 。 然 后 讨论 并 展示 了 
受 限 玻 尔 兹 曼 机 的 图 形 表示 。 此 外 ,还 讨论 了 卷 积 受 限 玻 尔 兹 曼 机 ， 它 是 卷 积 和 受 限 玻 尔 兹 曼 机 
的 组 合 , 用 于 提取 高 维 图 像 的 特征 。 接 着 介绍 了 流行 的 深度 信念 网 络 , 它 只 不 过 是 受 限 玻 尔 兹 曼 
机 的 堆 普 式 实 现 。 本 章 还 进一步 讨论 了 在 Hadoop 分 布 式 框架 中 对 受 限 玻 尔 兹 曼 机 和 深度 信和 念 网 





络 进 行 分 布 式 训练 的 方法 。 



























































本 章 最 后 提供 了 这 两 个 模型 的 代码 示例 。 下 一 章 将 介绍 一 种 名 为 “自动 编码 器 ”的 生成 模型 
及 其 各 种 变形 ， 如 降 噪 自动 编码 咒 、 深 度 自 动 编码 器 等 。 





Baht aa 








“人 们 担心 计算 机 会 变 得 太 过 智能 并 接管 世界 ， 然 而 实际 问题 是 计算 机 太 策 了 ， 并 
且 已 经 接管 了 世界 。” 





Pedro Domingos 


上 一 音 探 讨 了 名 为 受 限 玻 尔 兹 曼 机 的 生成 模型 ， 本 章 将 介绍 男 一 种 生成 模型 一 一 自动 编码 
器 。 自 动 编码 器 是 一 种 人 工 神经 网 络 ， 通 常用 于 降 维 、 特 征 学 习 或 提取 。 


本 章 将 详细 讨论 自动 编码 器 的 概念 及 其 各 种 形式 , 还 会 对 术语 正则 化 自动 编码 器 和 稀 玻 编码 
器 进行 解释 。 我 们 将 会 提 到 稀 玻 编码 的 概念 ,以 及 稀 玻 自动 编码 器 中 的 稀 玻 因子 的 选择 标准 。 接 
下 来 探讨 深度 学 习 模 型 、 深 度 自 动 编码 器 以 及 使 用 Deeplearning4j 完成 的 实现 。 降 噪 自动 编码 絮 
是 传统 自动 编码 器 的 另 一 种 形式 ， 将 在 本 章 的 最 后 讨论 。 


总 的 来 说 ， 本 章 分 为 以 下 几 个 部 分 : 


口 自动 编码 需 

O 稀 玻 自动 编码 器 
口 深度 自动 编码 器 
O 降 噪 自动 编码 器 
口 自动 编码 器 的 应 用 























































































































6.1 自动 编码 器 


自动 编码 右 是 具有 一 个 隐藏 层 的 神经 网 络 , 被 训练 用 于 学 习 恒 等 函数 , 该 函数 试图 重建 给 入 
到 输出 的 过 程 。 换 名 话说 , 自动 编码 器 会 尝试 将 输入 数据 投影 到 由 隐藏 节点 定义 的 低 维 子 空间 中 ， 
从 而 复制 该 数据 。 隐 藏 层 疡 描述 了 一 段 编码 ， 该 编码 用 于 表示 输入 数据 及 其 结构 。 因 此 ， 这 个 隐 
藏 层 必须 从 它 的 输入 训练 数据 集中 学 习 数 据 结 构 ， 以 便 在 输出 层 复 制 输入 。 


自动 编码 露 的 网 络 可 以 切 分 为 两 部 分 : 编码 占 和 解码 右 。 可 以 通过 函数 =f (及 来 描述 编码 絮 ， 
而 尝试 重建 或 复制 的 解码 器 则 由 r=g( 有 ) 来 定义 。 自动 编码 右 的 基本 思想 是 仅 复制 输入 中 相对 重要 
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的 部 分 ， 而 不 是 创建 和 输入 一 模 一 样 的 副本 。 它 们 就 是 这 样 设 计 的 ,以便 限 制 隐藏 层 只 近似 地 复 
制 ， 而 不 是 复制 输入 数据 中 的 所 有 内 容 。 因 此 ， 如 果 学 习 目 标 是 对 所 有 的 都 设置 eH)=k， 那 
么 这 个 自动 编码 器 是 没有 什么 用 处 的 。 图 6-1 展示 了 自动 编码 器 的 通用 结构 ， 它 将 输入 通过 代 
码 刀 的 内 部 隐藏 层 映射 到 输出 ro 









































图 6-1 自动 编码 器 的 通用 框图 。 输入 通过 一 个 隐藏 状态 或 者 内 部 表征 映射 到 输出 ro 
编码 絮 f 将 输入 映射 到 隐藏 状态 A, MEAE g 将 h 映 射 到 输出 x 

















我 们 再 来 看 一 个 示例 。 图 6-2 展示 了 输入 图 像 块 的 自动 编码 器 的 实际 表征 ， 输 入 图 像 块 
学 习 隐藏 层 A 以 输出 r+。 输入 层 大 是 来 自 图 像 块 的 强度 值 的 组 合 。 隐 藏 层 节点 帮助 将 高 维和 输入 层 
影 为 隐藏 节点 的 低 维 激活 值 。 这 些 隐 藏 层 节 点 的 激活 值 会 合并 在 一 起 以 生成 输出 层 x， 后 者 相 
当 于 输入 像素 的 近似 值 。 理 想 情况 下 ， 与 输入 层 节 点 相 比 ， 隐 藏 层 的 节点 数量 通常 较 少 。 因 此 ， 
它们 不 得 不 以 这 种 方式 减少 信息 量 ， 使 得 网 络 仍 能 产生 输出 层 。 


h | 
边缘 
r 
k 


像素 
图 6-2 ”自动 编码 器 如 何 从 输入 像素 的 近似 值 中 学 习 输 出 结构 

































































将 输入 的 结构 复制 到 输出 听 起 来 可 能 没什么 用 , 但 自动 编码 器 的 最 终结 果实 际 上 并 不 完全 取 
决 于 解码 器 的 输出 。 相 反 , 训练 自动 编码 器 背后 的 主要 思想 是 复制 输入 任务 中 的 有 用 属性 ， 而 它 
们 将 体现 在 隐藏 层 中。 
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从 自动 编码 器 中 提取 有 用 特征 或 信息 的 一 种 常用 方法 是 限制 隐藏 层 疡 的 维 数 q', 使 其 低 于 输 
和 天 的 维 数 ， 也 就 是 dg<d。 因 此 ， 得 到 的 较 小 维 数 层 可 以 称 为 输入 上 的 有 损 压 缩 表 征 。 隐 藏 层 维 
数 小 于 输入 维 数 的 自动 编码 需 称 为 欠 完 备 (undercomplete ) 自动 编码 器 。 


上 述 学 习 过 程 在 数学 上 可 以 表示 为 最 小 化 损失 函数 工 ， 具 体 如 下 所 示 : 
L(k, ge(f (Kk))) 
简 而 言 之 , 工 可 以 定义 为 惩罚 ef 有 D) 与 的 差异 的 损失 函数 。 


通过 线性 解码 颖 函数 ， 自 动 编码 右 能 够 学 习 构 成 空间 的 基 ， 这 与 主 成 分 分 析 (principal 
component analysis, PCA ) 过 程 相似 。 在 收敛 时 ， 隐 藏 层 会 形成 空间 的 基 ， 该 空间 跨越 了 作为 输 
入 的 训练 数据 集 的 主子 空间 。 但 是 与 主 成 分 分 析 不 同 , 这 个 过 程 不 一 定 非 要 产生 正 交 向 量 。 因此， 
具有 非 线 性 编码 咒 函 数 , 扩 和 非 线性 解码 器 函数 g 的 自动 编码 需 函 数 ， 可 以 学 到 比 主 成 分 分 析 更 强 
大 的 非 线性 泛 化 能 力 。 这 最 终 会 在 很 大 程度 上 提升 编码 顺和 解码 器 的 容量 。 然 而 ， 随 着 容量 的 增 
加 ， 自 动 编码 器 开始 显示 出 一 些 多 余 的 行为 "。 


它 可 以 学 习 复 制 整个 输入 过 程 ， 而 无 需 关 注 提取 所 需 的 信息 。 从 理论 上 来 说 ， 自 动 编码 需 可 
以 是 一 维 编码 ， 但 实际 上 ， 强 大 的 非 线性 编码 器 可 以 用 编码 来 学 习 表 征 每 个 训练 样 例 KD。 接 
下 来 ， 解 码 器 将 这 些 整数 G) 映射 到 具体 训练 样 例 的 值 。 因 此 ， 使 用 具有 更 大 容量 的 自动 编码 
需 ， 却 仅 复制 输入 数据 集中 那些 有 用 的 特征 是 彻底 失败 的 。 


主 成 分 分 析 是 一 种 统计 方法 , 它 可 以 用 正 交 变换 将 一 组 可 能 相关 的 观测 变量 转换 
ap 为 一 组 称 为 主 成 分 的 线性 相关 变量 。 主 成 分 分 析 方法 中 的 主 成 分 数量 小 于 等 于 原 
始 输 入 变量 的 数量 。 

















































































































类 似 于 欠 完 备 自动 编码 器 (其 中 隐藏 层 的 维 数 小 于 输入 的 维 数 ) 的 极端 情况 问题 ， 自 动 编码 
带 ( 隐藏 层 或 编码 的 维 数 可 以 与 输入 相同 ) 通常 面临 相同 的 问题 。 
隐藏 层 维 数 大 于 输入 维 数 的 自动 编码 器 称 为 过 完备 〈overcomplete ) 自动 编码 器 。 这 类 自动 


编码 器 更 容易 受到 上 述 问题 的 影响 。 即 使 是 线性 编码 器 和 解码 器 , 也 可 以 在 不 学 习 输入 数据 集 所 
需 属性 的 情况 下 ， 学 习 输 入 到 输出 的 映射 关系 。 






























































正则 化 自动 编码 器 


恰当 选择 隐藏 层 维 数 , 并 根据 模型 分 布 的 复杂 性 确定 编码 锅 和 解码 需 的 容量 , 我 们 可 以 成 功 
构建 任意 一 种 架构 的 自动 编码 器 。 具 有 这 种 功能 的 自动 编码 器 称 为 正则 化 自动 编码 器 。 


除了 能 够 将 输入 复制 到 输出 , 正则 化 自动 编码 需 还 有 一 个 损失 函数 , 该 函数 能 够 帮助 模型 获 





















































D 执行 复制 任务 。 一 一 译 者 注 
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IRRE, PLFA ACA EEE, BERTIE AYRE. KIEFRA ME BRA 
容量 的 条 件 下 , 哪怕 是 非 线性 的 过 完备 正则 化 自动 编码 器 , 也 至 少 能 够 学 习 关 于 数据 分 布 的 一 些 
知识 。 借 助 重 构 误 差 和 正则 化 项 此 消 披 长 的 过 程 ， 正 则 化 自动 编码 器 "可 以 捕捉 到 训练 数据 分 
布 的 结构 。 























6.2 ” 稀 琉 自动 编码 器 


分 布 式 稀 玻 表征 是 深度 学 习 算法 中 学 习 有 用 特征 的 关键 之 一 。 它 不 仅 是 数据 表征 的 一 种 连续 
模式 ， 而 且 还 有 助 于 捕获 大 多 数 真 实数 据 集 的 生成 过 程 。 在 本 节 中 , 我 们 将 解释 自动 编码 器 如 何 
支持 数据 稀 玻 性 ， 还 将 介绍 稀 琉 编码 。 当 输入 使 神经 网 络 中 少量 的 节点 〈 它 们 共同 以 稀 玻 的 方式 
来 表示 神经 网 络 ) 激活 时 ,我 们 称 编码 为 稀 朴 的 。 在 深度 学 习 技 术 中 ,相似 的 约束 条 件 用 于 生成 
稀 琉 编码 模型 以 实现 正则 化 自动 编码 器 ,而 它们 是 用 称 为 “ 稀 玻 自 动 编码 器 ”的 稀 玻 常数 进行 训 
练 的 。 


























































































































6.2.1 FARA 


Prt EO TI, 它 可 以 学 习 过 完备 基 的 集合 , 并 以 一 种 连续 且 有 效 的 方式 来 表 
示 数 据 。 稀 琉 编 码 的 主要 目的 是 确定 一 组 向 量 (D)w， 使 得 输入 向 量 可 以 表示 为 这 些 向 量 的 线性 


组 合 。 


从 数学 上 来 说 ， 具 体 表示 如 下 所 示 : 



































n 
k= > ay, 
i=l 





其 中 中 是 每 个 向 量 w 所 对 应 的 相关 系数 。 


借助 主 成 分 分 析 , 我 们 能 够 以 一 种 连续 的 方式 来 学 习 基 向 量 的 一 个 完备 集合 。 但是, 我 们 想 
要 学 习 基 向 量 的 一 个 过 完备 集合 ， 以 表示 输入 向 量 EER"， 其 中 n>m。 想 要 得 到 过 完备 基 的 原因 
是 ,这 些 基 向 量 通常 可 以 捕捉 到 输入 数据 内 在 的 模式 和 结构 。 但 是 过 完备 性 有 时 会 造成 退步 ,这 
是 因为 基 向 量 的 相关 系数 w 不 能 唯一 地 识别 输入 向 量 ko 因此 ， 稀 玻 编码 中 又 引入 了 名 为 稀 踊 性 
的 标准 。 

简单 来 说 , 稀 玻 性 可 以 定义 为 具有 很 少 的 非 零 分 量 或 者 说 具有 很 少 的 不 接近 于 零 的 分 量 。 对 
于 给 定 的 输入 向 量 , 如 果 非 零 系数 的 数量 或 者 与 零 显 著 不 同 的 系数 的 数量 应 该 很 少 , 那么 相关 系 
数 a NRA EA o 

SEAS init as, 我 们 可 以 进入 下 一 节 , PRR ht HS BB eM H F oh aR 
HE A A aaa o 
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6.2.2 ” 稀 玻 自动 编码 器 


当 输 入 数据 集 维 持 某 个 结构 且 输 入 特征 是 相关 的 时 , 即使 是 简单 的 自动 编码 器 算法 ,也 能 
发 现 这 些 相关 性 。 此 外 , 在 这 种 情况 下 ,简单 的 自动 编码 器 将 最 终 学 习 类 似 于 主 成 分 分 析 的 一 种 
低 维 表 征 。 


这 种 观点 基于 隐藏 层 数 量 相对 较 少 这 一 事实 。 然 而 ,通过 对 网 络 施加 其 他 约束 ， 即 使 具有 大 
量 隐 藏 层 ， 网 络 仍 然 可 以 从 输入 向 量 中 发 现 期 望 的 特征 。 


稀 玻 编码 器 通常 用 来 学 习 特 征 以 执行 分 类 这 样 的 任务 。 添 加 了 稀 玻 性 约束 的 自动 编码 器 , 必 
须 响应 其 正在 训练 的 输入 数据 集 的 独 有 统计 特征 ， 而 不 是 简单 地 将 自己 作为 恒 等 函数 。 


Fai A DARA PITT ae, 后 者 有 助 于 指导 单 层 网 络 学 习 隐 藏 层 编码 。 这 种 方法 将 使 
得 重 构 误差 最 小 化 , 同时 限制 重 构 和 输出 所 需要 的 编码 数量 。 这 种 稀疏 性 算法 可 以 看 作 一 个 分 类 问 
题 ， 该 问题 将 输入 限制 为 单个 类 值 ， 这 有 助 于 减 小 预测 误差 。 


下 面前 释 具 有 简单 架构 的 稀 琉 编码 器 。 图 6-3 展示 了 稀 琉 自动 编码 器 的 最 简 形 式 ， 该 稀 琉 编 
码 器 由 单个 隐藏 层 组 成 。 隐 藏 层 1 通过 权 值 矩阵 W ERRIA EK, 这 就 是 编码 步骤。 在 解 
码 步骤 中 ， 隐 藏 层 h 在 权 值 矩阵 W 的 帮助 下 输出 到 重组 向 量 K'。 在 网 络 中 ， 激 活 函 数 表示 为 凡 
凯 置 项 表示 为 2。 激活 函数 可 以 是 任意 形式 ， 如 线性 、sigmoid 函数 或 者 ReLU。 





































































































图 6-3 稀 玻 自动 编码 吉 的 典型 示例 
计算 隐藏 编码 ! 的 稀 玻 表征 的 等 式 如 下 所 示 : 
1= f(WK +b) 


重建 后 的 输出 是 关于 隐藏 层 的 表示 式 ， 它 采用 以 下 方式 线性 地 映射 到 输出 : 
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K'= f(W'l+b’) 


模型 通过 反 向 传播 对 重建 误差 进行 学 习 。 对 所 有 的 参数 进行 优化 以 最 小 化 均 方 误差 ， 如 下 
所 示 : 








e 2 
min||k' -k| 





MEA THAKRE, FETA LAYS RE, MAE L 转 为 稀疏 表征 。 我 们 将 使 用 k- 
稀 玻 自动 编码 器 来 实现 层 的 稀 朴 表征 。( 注意 ， 不 要 将 k- 稀 玻 表征 中 的 大 和 输入 向 量 天 搞 混 了 。 
我 们 采用 了 小 写 丰 和 大 写 天 以 示 区 分 。) 


k- 稀 琉 自 动 编码 器 


k- 稀 玻 自动 编码 器 "基于 带 有 权 值 和 线性 激活 函数 的 自动 编码 器 ， 甚 基本 思想 非常 简单 。 
在 自动 编码 器 的 前 馈 阶段 ， 一 旦 我 们 计算 隐藏 编码 1= WK+ bp， 而 不 是 重建 所 有 隐藏 单 元 的 输入 ， 
那么 该 方法 就 会 搜索 个 最 大 隐藏 单元 ， 并 将 剩余 的 隐藏 单元 的 值 设置 为 零 。 


确定 个 最 大 隐藏 单元 的 方法 有 多 种 。 通过 对 隐藏 单元 的 激活 值 进行 排序 , 或 者 使 用 ReLU, 
可 以 调整 带 有 阅 值 的 隐藏 单元 ， 直 到 确定 个 最 大 激活 值 。 找 到 个 最 大 激活 值 的 选择 步骤 是 非 
线性 的 。 选 择 步 又 就 像 一 个 正则 化 项 ， 有 助 于 在 重建 输入 来 构建 输出 的 同时 ， 避 免 使 用 大 量 隐 
藏 单 元 。 

© 如 何 选择 稀疏 性 等 级 天 


如 果 执 行 一 个 低 稀 玻 性 等 级 (如 大 10 )， 那 么 可 能 会 在 训练 J 稀 琉 自 动 编码 器 时 出 现 问题 。 
一 个 常见 的 问题 是 , 在 前 几 次 迭代 中 , 算法 会 积极 地 开始 将 各 个 隐藏 单元 分 配给 训练 样 例 组 。 这 
种 现象 可 以 与 k-means 聚 类 方法 进行 比较 。 在 连续 迭代 的 过 程 中 ,这 些 隐藏 单元 将 被 选择 和 重新 
分 配 ， 但 其 他 隐藏 单元 不 会 进行 调整 。 


适当 调节 稀 玻 性 等 级 可 以 解决 此 问题 。 假 设 我 们 的 目标 是 稀 玻 性 水 平 为 10。 这 种 情况 下 ， 
我 们 可 以 从 较 大 的 稀 朴 性 等 级 开始 ， 如 大 100 或 大 200。 因 此 ，kc 稀 玻 自动 编码 器 可 以 训练 存在 
的 所 有 隐藏 单元 。 逐 渐 地 ， 壕 代 过 半 后 ， 我 们 可 以 将 稀疏 性 等 级 (大 100 ) 线性 地 降低 到 大 10。 
这 大 大 增加 了 所 有 隐藏 单元 都 被 选 上 的 机 会 。 接 下 来 ， 在 迭代 的 后 半 段 ， 维 持 入 10。 这 种 调度 
将 保证 即使 在 低 稀 足 性 等 级 很 低 的 情况 下 ， 所 有 的 过 滤器 都 将 被 训练 。 


© 稀疏 性 等 级 的 效果 


在 设计 或 实现 k- 稀 玻 自 动 编码 器 时 , 上 值 的 选择 十 分 关键 。 大 值 决定 了 期 望 的 稀 玻 性 等 级 ， 
这 有 助 于 让 该 算法 成 为 各 种 数据 集 的 理想 选择 。 例 如 , 某 个 应 用 可 以 用 于 预 训练 某 个 深度 判别 性 
网 络 或 者 茶 个 浅 层 网 络 。 


如 果 采 用 一 个 大 的 大 值 (例如 在 MNIST 数据 集 上 使 用 k=200 )， 则 该 算法 会 非常 倾向 于 识别 
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和 学 习 数 据 集 的 局 部 特征 。 这 些 特征 有 时 表现 得 大 不 成 熟 , 因而 无 法 用 于 浅 层 架 构 的 分 类 问题 上 。 
浅 层 架 构 通常 有 一 个 朴素 线性 分 类 器 , 该 分 类 器 的 架构 强度 不 足 , 无 法 合并 所 有 的 特征 并 取得 较 
高 的 分 类 正确 率 。 但 是 ， 类 似 的 局 部 特征 非常 适用 于 对 深度 神经 网 络 进行 预 训练 。 

如 果 采 用 低 一 点 的 稀 玻 性 等 级 (例如 在 MNIST 数据 集 上 使 用 大 10 )， 则 使 用 少量 隐藏 单元 


从 输入 重建 输出 。 这 会 最 终 导 致 从 数据 集中 检测 全 局 特征 ， 而 不 是 像 先前 情况 那样 的 局 部 特征 。 
这 些 较 少 的 局 部 特征 适用 于 浅 层 架 构 的 分 类 任务 。 相 反 , 这 些 情 况 对 于 深度 神经 网 络 来 说 并 不 理想 。 













































































6.3 ”深度 自动 编码 器 


到 目前 为 止 , 我 们 仅仅 讨论 了 简单 自动 编码 器 的 单 层 编码 器 和 单 层 解码 需 。 但 是 , 带 有 多 个 
编码 顺和 解码 需 的 深度 自动 编码 需 具 有 更 多 优点 。 


前 馈 网 络 在 层次 深 时 表现 得 更 好 。 自动 编 码 右 基本 上 就 是 前 馈 网 络 , 因此 具有 基础 前 馈 网 络 
的 所 有 优点 。 编 码 器 和 解码 器 都 是 自动 编码 器 ， 也 像 前 馈 网 络 一 样 工作 。 所 以 , 我 们 也 可 以 在 这 
些 组 件 中 利用 前 馈 神 经 网 络 深度 的 优势 。 

这 里 , 我 们 还 可 以 讨论 一 下 万 能 台 近 定理 , 它 确保 了 至 少 有 一 个 隐藏 层 且 有 足够 隐藏 单 元 的 
前 馈 神 经 网 络 ， 能够 以 任意 精确 度 生 成 任意 函数 的 近似 值 。 遵 循 这 个 概念 ， BD Bai H. 
包含 足够 多 的 隐藏 单元 的 深度 自动 编码 器 ， 能 很 好 地 近似 表示 任意 从 输入 到 编码 的 映射 。 






































































































































我 们 可 以 使 用 双 层 网 络 以 任意 精度 逼近 任意 连续 函数 .在 人 工 神 经 网 络 的 数学 理 

Gp 论 中 ,万 能 逼近 函数 表明 ,如 果 前 馈 网 络 至 少 具 有 一 个 拥有 有 限 神经 元 的 隐藏 层 ， 

就 可 以 逼近 属于 R" 的 任意 连续 函数 。 

与 浅 层 架 构 相 比 , 深度 自动 编码 器 有 许多 优势 。 但 过 深 的 深度 会 抑制 自动 编码 器 的 拟 合 能 力 
(由 于 梯度 消失 等 原因 )。 此 外 ， 自 动 编码 需 的 深度 大 大 减少 了 学 习 函 数 所 需要 的 训练 数据 量 。 甚 
至 实验 已 经 发 现 ， 与 浅 层 自动 编码 器 相 比 ， 深 度 自 动 编码 器 的 压缩 效果 更 好 。 

为 了 训练 深度 自动 编码 器 , 通常 的 做 法 是 训练 一 堆 浅 层 自动 编码 器 。 因 此 , 训练 深度 自动 编 
码 器 经 常 需要 用 到 浅 层 自 动 编码 器 栈 。 下 面 将 深入 探讨 深度 自动 编码 器 的 概念 。 
















































































6.3.1 训练 深度 自动 编码 器 

这 里 介绍 的 深度 自动 编码 器 的 设计 基于 MNIST 手写 数字 数据 库 。 参 考 文献 [133] 介 绍 了 构建 
和 训练 深度 自动 编码 器 的 步 又。 训练 深度 自动 编码 器 基本 分 三 步 ， 即 预 训练 、 展 开 和 微调 。 
(1) 预 训练 : 训练 深度 自动 编码 器 的 第 一 步 是 “ 预 训练 "。 该 阶段 的 主要 目的 是 处 理 二 进 制 数 
据 ， 将 其 归纳 为 实 值 数据 ， 并 断定 其 很 适合 各 种 数据 集 。 
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我 们 已 经 充分 了 解 , 单 层 隐藏 单元 不 是 对 海量 图 像 进 行 建 模 的 正确 方式 。 DRE A beh ai H 
多 层 受 限 玻 尔 兹 曼 机 组 成 。 我 们 在 第 5 章 中 详细 介绍 了 受 限 玻 尔 兹 曼 机 的 工作 原理 。 基 于 这 些 概 
念 ， 我 们 可 以 开始 构建 深度 自动 编码 器 的 结构 。 


当 受 限 玻 尔 兹 曼 机 的 第 一 层 受 数据 流 驱 动 时 , 该 层 开 始 学 习 特征 检测 器 。 这 层 的 学 习 结 果 可 
以 作为 下 一 层 学 习 的 输入 数据 。 通 过 这 种 方式 ,第 一 层 的 特征 检测 器 成 为 学 习 受 限 玻 尔 效 曼 机 下 
一 层 的 可 见 单元 。 这 种 逐 层 学 习 可 以 按 需 迭代 多 次 。 该 步 又 在 预 训练 深度 自动 编码 器 的 权 值 方面 
确实 非常 有 效 。 在 每 一 层 捕获 的 特征 在 下 面 的 隐藏 单元 的 激活 值 之 间 具 有 一 连 串 高 阶 相关 性 。 
6-4 呈现 了 该 阶段 的 流程 图 。 为 了 处 理 基 准 数据 集 MNIST , VRE A SRA tit 2S TEBE TSS PRR BK 
曼 机 后 使 用 二 元 变换 。 为 了 处 理 实 值 数 据 , 深度 自动 编码 器 会 在 每 个 受 限 玻 尔 效 曼 机 层 后 使 用 高 
斯 整流 变换 。 




































































RBM 编码 器 


预 训 练 展开 














图 6-4 预 训练 深度 自动 编码 絮 包 含 学习 受 限 玻 尔 兹 曼 机 栈 ， 其 中 每 个 受 限 玻 尔 兹 曼 机 
都 拥有 一 层 特征 检测 絮 。 将 一 个 受 限 玻 尔 兹 曼 机 的 学 习 特 征 作 为 “输入 数据 ” 6 
来 训练 栈 中 的 下 一 个 受 限 玻 尔 兹 曼 机 。 预 训练 阶段 后 ， 所 有 的 受 限 玻 尔 兹 曼 机 
展开 来 构建 一 个 深度 自动 编码 器 。 接 着 使 用 误差 导数 的 反 向 传播 方法 对 该 深度 

自动 编码 器 进行 微调 












































(2) 展开 : 一 旦 深度 自动 编码 需 的 多 层 特 征 检测 需 完 成 预 训练 ， 整 个 模型 就 会 展开 以 生成 编 
码 器 和 解码 需 网 络 , 它们 起 初 使 用 相同 的 权 值 。 我 们 将 分 别 解释 图 像 中 第 二 部 分 给 出 的 每 个 部 分 
的 每 个 设计 ， 以 便 更 好 地 理解 这 一 阶段 。 
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O 编码 器 : 针对 28x28 像素 图 像 的 MNIST 数据 集 ， 网 络 得 到 的 输入 将 是 784 像素 。 根 据 经 
验 法 则 , 深度 自动 编码 器 的 第 一 层 的 参数 数量 应 该 稍 多 一 些 。 如 图 6-4 所 示 ， 网 络 的 第 一 
层 采 用 了 2000 个 参数 。 这 上 听 起 来 可 能 不 太 合理 ， 因 为 输入 更 多 的 参数 会 增加 网 络 过 拟 合 
的 可 能 性 。 但 在 这 种 情况 下 ， 增 加 参数 的 数量 将 最 终 增加 输入 的 特征 ， 进 而 使 得 自动 编 
码 嚣 数据 的 解码 成 为 可 能 。 

如 图 6-4 所 示 ， 各 层 将 分 别 是 2000, 1000, 500 和 30 个 节点 宽 。 图 6-5 简略 地 描述 了 这 
种 情况 。 最 后 ， 编 码 器 会 生成 一 个 30 个 数字 长 的 向 量 。 该 向 量 是 深度 自动 编码 器 中 编码 
器 的 最 后 一 层 。 该 编码 器 大 致 如 下 所 示 : 
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图 6-5 ”编码 器 和 解码 器 的 数量 或 向 量 在 各 阶段 不 同 





口 解码 器 : 在 编码 阶段 结束 时 发 现 的 长 达 30 个 数字 的 向 量 是 28x28 像素 图 像 的 编码 版 本 。 
深度 自动 编码 器 的 第 二 部 分 是 解码 器 阶段 ， 该 阶段 基本 上 是 学 习 如 何 解码 已 编码 的 向 量 。 
因此 ， 编 码 器 阶段 的 输出 〈 长 达 30 个 数字 的 向 量 ) 成 为 解码 器 阶段 的 输入 。 这 一 半 深 度 
自动 编码 需 是 前 馈 网 络 , 其 中 每 一 层 后 的 已 编码 向 量 向 前 传播 至 重建 的 输入 。 图 6-4 中 的 
各 层 分 别 为 30、500、1000 和 2000 个 节点 宽 。 这 些 层 最 初 具有 相同 的 权 值 以 作为 预 训练 
网 络 的 对 应 部 分 ; 只 是 权 值 被 转 置 了 ， 如 图 所 示 。 该 解码 器 大 致 如 下 所 示 : 


















































784( 输 出 ) <— 2000 + 1000 <+ 500 < 30 


因此 ， 深 度 自 动 编码 器 的 解码 部 分 的 主要 目的 是 学 习 如 何 重 构图 像 。 这 个 操作 是 在 第 二 
个 前 馈 网 络 中 执行 的 ， 该 网 络 也 会 在 重建 箭 的 过 程 中 执行 反 向 传播 。 


(3) 微调 : 在 微调 阶段 ， 随 机 活动 由 确定 性 的 实 值 概率 所 取代 。 采 用 反 向 传播 方法 ， 对 整个 
深度 自动 编码 顺 的 每 层 相关 联 的 权 值 进行 微调 ， 以 实现 最 佳 重建 。 
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6.3.2 ”使 用 Deeplearning4j 实现 深度 自动 编码 器 


你 现在 已 经 充分 了 解 了 如 何 使 用 一 些 受 限 玻 尔 效 曼 机 来 构建 深度 自动 编码 器 。 本 节 将 解释 如 
何 使 用 Deeplearning4j 来 设计 深度 自动 编码 髓 。 


我 们 将 使 用 前 文 提 到 的 MNIST 数据 集 , 并 使 深度 自动 编码 需 的 设计 与 我 们 之 前 提 到 的 类 似 。 


正如 前 面 的 示例 说 明 的 那样 , 使 用 了 原始 MNIST 数据 集中 大 小 为 1024 个 样本 的 批量 , 这 可 
以 分 为 NÂ Hadoop 块 。 这 N 个 块 会 在 HDFS 上 并 行 地 由 每 个 工作 者 进行 处 理 。 实 现 深度 自动 编 
码 右 的 代码 流程 是 简单 而 直观 的 。 


有 具体 步骤 如 下 所 示 。 


(1) 在 HDFS 中 批量 加 载 MNIST 数据 集 。 每 个 批量 将 包含 1024 个 样本 。 
(2) 开始 构建 模型 。 

(3) 执行 编码 操作 。 

(4) 执行 解码 操作 。 

(5) 通过 调用 fit () 方 法 来 训练 模型 。 
























































final int numRows = 28; 


初始 化 所 需 的 配置 ， 以 设置 Hadoop 环境 。 将 patchsize 设 定 为 1024。 








final int numColumns = 28; 

int seed = 123; 

int numSamples = MnistDataFetcher.NUM_EXAMPLES; 
int batchSize = 1024; 

int iterations = 1; 

int listenerFreq = iterations/5; 


将 数据 加 载 到 HDFS : 


log.info("Load data...."); 
DataSetIterator iter = new 
MnistDataSetIterator (batchSize,numSamples, true) ; 


STE CHE aE ER, ESTP BOR A 2 DLA BOR PETA H SS a : 


log.info("Build model...."); 

ultiLayerConfiguration conf = new NeuralNetConfiguration. Builder () 
. seed (seed) 
. iterations (iterations) 
.optimizationAlgo (OptimizationAlgorithm. LINE_GRADIENT_DESCENT) 


要 想 创 建 具 有 指定 层 数 (这 里 是 8 ) AY ListBuilder 对 象 ， 需 要 调用 .1ist() 方 法 : 


- list (8) 
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下 一 步 是 构建 模型 的 编码 阶段 。 这 可 以 通过 随后 将 受 限 玻 尔 兹 曼 机 添加 到 模型 中 来 完成 。 编 
人 码 阶段 有 四 层 受 限 玻 尔 兹 曼 机 ， 其 中 每 一 层 相 应 有 2000、1000、500 和 30 个 节点 : 





.layer(0, new RBM.Builder().nIn(numRows * 

numColumns) .nOut (2000) .lossFunction(LossFunctions.LossFunction 
.RMSE_XENT) .build() ) 
.layer(1, new RBM.Builder() .nIn(2000) .nOut (1000) 

. LossFunction (LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(2, new RBM.Builder().nIn(1000) .nOut (500) 

. LossFunction (LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer (3, new RBM.Builder().nIn(500) .nOut (30) 
.lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 


编码 器 后 的 下 一 个 阶段 是 解码 器 阶段 ， 这 里 我 们 按照 之 前 的 方式 再 使 用 四 个 受 限 玻 尔 效 曼 机 : 


.layer(4, new RBM.Builder().nIn(30) .nout (500) 

. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(5, new RBM.Builder().nIn(500) .nOut (1000) 

. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(6, new RBM.Builder() .nIn(1000) .nOut (2000) 

. lossFunction(LossFunctions.LossFunction.RMSE_XENT) .build() ) 
.layer(7, new OutputLayer.Builder(LossFunctions.LossFunction.MSE) 
-activation("sigmoid") .nIn(2000) .nOut (numRows*numColumns) .build()) 


现在 所 有 的 内 部 中 间 层 已 经 构建 完成 ， 我 们 可 以 通过 调用 buila() 方 法 来 构建 模型 























.pretrain (true) .backprop (true) 
-build(); 


ZR ia TEVA A aioe, ACAD fit () 方 法 : 




















MultiLayerNetwork model = new MultiLayerNetwork (conf); 
model.init(); 


model.setListeners (new ScorelIterationListener(listenerFreq) ); 


log.info("Train model...."); 
while(iter.hasNext () ) 
{ 
DataSet next = iter.next(); 
model.fit(new DataSet (next.getFeatureMatrix(),next 
-getFeatureMatrix())); 


} 


6.4 降 噪 自动 编码 器 


通过 输入 重建 输出 并 不 总 能 确保 得 到 期 望 的 输出 , 有 时 只 是 简单 地 复制 输入 。 为 了 防止 这 种 
情况 出 现 , 参考 文献 [134] 中 提出 了 一 种 不 同 的 策略 。 在 该 文章 提议 的 架构 中 , 基于 清理 部 分 损坏 
的 输入 来 构建 重建 的 标准 ， 不 是 在 输入 数据 的 表征 中 设置 一 些 约束 。 
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“良好 的 表征 可 以 从 一 个 损坏 的 输入 中 健 半 地 获得 ， 并 且 可 用 于 恢复 相应 的 干净 给 
rn” 


降 噪 自动 编码 器 是 自动 编码 需 的 一 种 类 型 ， 它 将 损坏 的 数据 作为 输入 , 该 模型 被 训练 用 来 预 
测 原始 的 、 干 净 的 和 未 被 破坏 的 数据 作为 其 输出 。 我 们 将 在 本 节 中 介绍 设计 降 品 自动 编码 器 的 基 
本 思路 。 






























































6.4.1 降 噪 自动 编码 器 的 架构 


降 噪 自动 编码 器 背后 的 主要 思路 是 引入 一 个 损坏 过 程 2 (kA), HARDA 心中 重建 输 
出 ro El 6-6 展示 了 降 噪 自动 编码 器 的 总 体 表 征 。 在 降 品 自动 编码 器 中 ， 对 于 训练 数据 的 每 一 
个 微 批 量 ， 相 应 的 损坏 输入 有 应 该 用 O ("| 及 生成 。 基 于 此 ， 如 果 我 们 将 初始 输入 视 为 损坏 的 输 
入 用 ， 则 整个 模型 可 以 看 作 是 基本 编码 器 的 一 种 形式 。 损 坏 的 输入 k 被 映射 以 生成 隐藏 表征 h。 









































Q g0 


区 0 区 OO0k 人 (O0000) [COOOO) 
k’ k r 























图 6-6 设计 降 噪 自动 编码 器 的 步 又。 原始 输入 是 大， 从 大 推导 出 的 损坏 输入 为 k', 
最 后 的 输出 为 x 


因此 ， 我 们 得 到 如 下 表达 式 : 
h= f(k')=Wk'+b 
通过 这 个 隐藏 表征 ,可 以 由 >=g( 和 推导 出 重建 输出 >。 降 噪 自动 编码 需 重新 组 织 数据 ， 然 后 
尝试 学 习 重 建 输出 的 数据 。 数 据 的 重新 组 织 或 者 数据 的 混 洗 会 产生 噪声 ， 而 模型 从 噪声 中 学 习 特 
征 ， 从 而 对 输入 进行 分 类 。 训 练 网 络 的 过 程 中 会 产生 一 个 模型 ， 该 模型 通过 一 个 损失 函数 来 计算 
模型 和 基准 之 间 的 距离 。 这 是 为 了 将 训练 集中 的 平均 重建 误差 最 小 化 ， 从 而 使 得 输出 > 尽 可 能 接 
近 原 始 的 未 损坏 输入 ko 



































6.4.2 HESAR AiE 

构建 堆 释 式 降 噪 自动 编码 器 来 初始 化 深度 神经 网 络 , 类 似 于 堆 释 一 些 受 限 玻 尔 兹 曼 机 来 构建 
一 个 深度 信念 网 络 或 传统 深度 自动 编码 器 。 只 有 每 一 层 的 初始 降 噪 训练 才 需 要 生成 损坏 的 输入 ， 
以 帮助 学 习 有 用 特征 的 提取 。 
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一 旦 知道 用 于 获取 隐藏 状态 的 编码 函数 f/， 就 能 够 用 它 将 原始 的 、 未 损坏 的 数据 传递 至 下 一 








Jeo 通常 情况 下 ， 








未 损坏 或 未 包含 噪声 的 数据 用 于 生成 表征 ， 它 将 作为 未 损失 的 输入 , 用 于 下 一 








层 的 训练 。 堆 受 式 降 噪 自动 编码 顺 的 关键 功能 是 通过 输入 进行 逐 层 无 监督 的 预 训 练 。 一 旦 一 层 基 
于 从 前 一 层 传递 过 来 的 输入 进行 预 训 练 以 执行 特征 选择 和 抽取 , 就 可 以 遵循 监督 式微 调 的 其 他 阶 
段 ， 就 像 传统 深度 自动 编码 骨 那 样 。 


6-7 详细 展示 了 堆 受 式 降 品 自动 编码 器 的 设计 。 降 噪 自动 编码 器 的 学 习 和 多 层 堆肥 的 整个 













































































过 程 如 下 所 示 。 
ID 
OOO 
Sf f 
(00000) (00000) (00000 

















图 6-7 WEAKER A oh aa at 











6.4.3 ”使 用 Deeplearning4j 实现 堆 又 式 降 曲 自动 编码 器 


通过 创建 以 自动 编码 器 作为 其 隐藏 层 的 MultiLayerNetwork， 可 以 使 用 Deeplearning4j 来 
构建 堆 羡 式 降 品 自动 编码 器 。 这 种 自动 编码 器 有 一 些 corruptionLevel 设置 ， 这 表示 为 噪声 。 


这 里 我 们 设置 模型 所 需要 的 初始 配置 。 为 了 解释 说 明 的 目的 , batchsize 设置 为 1024 个 样 


本 。 输 入 数 和 输 ! 















































! 数 分 别 为 1000 和 2。 





int output 


um = 2; 


int inputNum = 1000; 
int iterations = 10; 


int seed = 


1235 


int batchSize = 1024; 


输入 数据 集 的 加 载 方式 与 6.3 PARRA DT SAT K, RERNA EEEE 
噪 自 动 编码 器 。 我 们 利用 具有 五 个 隐藏 层 的 深度 模型 来 说 明 该 方法 : 

















log.info (" 














Build model...."); 


MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder () 
. seed (seed) 
-gradientNormalization(GradientNormalization 
-ClipElementWiseAbsoluteValue) 
-gradientNormalizationThreshold (1.0) 
-iterations (iterations) 
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.Updater (Updater .NESTEROVS ) 
-momentum(0.5) 
-momentumAfter (Collections.singletonMap(3, 0.9)) 
-optimizationAlgo (OptimizationAlgorithm.CONJUGATE_GRADIENT) 
-list() 
.layer(0, new AutoEncoder. Builder () 

.nin(inputNum) 

.nout (500) 


.weightInit (WeightInit.XAVIER) .lossFunction(LossFunction.RMSE_XENT) 
以 下 代码 表示 多 少 输入 数据 将 会 损坏 : 


.CorruptionLevel (0.3) 
-build()) 
.layer(1, new AutoEncoder. Builder () 
.nIn(500) 
.nOut (250) 
.weightInit (WeightInit.XAVIER) .lossFunction 
(LossFunction.RMSE XENT) 
.corruptionLevel (0.3) 
-build()) 
.layer(2, new AutoEncoder.Builder () 
.niIn(250) 
-nOut (125) 
.weightInit (WeightInit.XAVIER) .lossFunction 
(LossFunction.RMSE_XENT) 
.corruptionLevel (0.3) 
-build()) 
.layer(3, new AutoEncoder. Builder () 
.nIn(125) 
.nOut (50) 
.weightInit (WeightInit.XAVIER).lossFunction 
(LossFunction.RMSE_XENT) 
.corruptionLevel (0.3) 
.build()) 
.layer(4, new OutputLayer.Builder 
(LossFunction.NEGATIVELOGLIKELIHOOD) 
-activation("softmax") 
-niIn(75) 
.nOut (outputNum) 
-build()) 
.pretrain (true) 
.backprop (false) 
-build(); 

















一 旦 模型 构建 完成 ， 可 以 通过 调用 fit () 方 法 来 进行 训练 。 


try { 
model.fit(iter); 
} 
catch(Exception ex) 
{ 


ex.printStackTrace(); 
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6.5 自动 编码 器 的 应 用 


因为 可 以 在 许多 用 例 中 成 功 应 用 , 所 以 自动 编码 器 在 深度 学 习 的 世界 中 大 受 欢 迎 。 本 节 将 讨 
论 自动 编码 需 的 重要 应 用 和 使 用 场景 。 


O 降 维 : 如 果 你 还 记得 ， 我 们 早 在 第 1 章 中 就 介绍 了 “维度 诅咒 ”的 概念 。 降 维 是 深度 学 
习 的 主要 应 用 之 一 。 自 动 编码 器 的 研究 初衷 就 是 为 了 克服 维度 诅 台 这 一 问题 。 通 过 本 章 ， 
我 们 已 经 清楚 深度 自动 编码 器 如 何 操作 更 高 维 的 数据 以 降低 最 终 输 出 的 维 数 。 

口 信息 检索 : 深度 自动 编码 器 的 另 一 个 重要 应 用 是 信息 检索 。 信 息 检索 基本 上 意味 着 在 数 
据 库 中 通过 输入 查询 来 搜索 匹配 的 条 目 。 搜 索 高 维 数据 通常 是 一 项 繁琐 的 工作 ， 然 而 随 
着 数据 集 的 维 数 降低 ， 在 某 些 类 型 的 较 低 维 数据 中 搜索 可 能 会 变 得 非常 高 效 。 事 实 上 ， 
自动 编码 器 的 降 维 能 力 可 以 生成 低 维 和 二 进 制 编码 。 这 些 编码 可 以 键 值 形 式 存储 在 数据 
结构 中 ， 其 中 键 是 二 进 制 编码 向 量 ， 值 是 相应 的 条 目 。 通 过 返回 匹配 查询 二 进 制 编码 的 
所 有 数据 库 条 目 ， 这 样 的 键 值 存储 可 以 帮助 我 们 执行 信息 检索 。 通 过 降 维 和 二 进 制 编码 
来 检索 信息 的 这 种 方法 称 为 语义 散 列 1。 

口 图 像 搜索 : 正如 在 6.3 节 中 所 说 的 那样 ,深度 自动 编码 器 可 以 将 高 维 的 图 像 数 据 集 压 缩 成 
非常 小 的 向 量 集合 ， 如 30 维 。 因 此 ， 这 使 得 高 维 图 像 的 搜索 变 得 更 加 容易 。 一 旦 图 像 被 
上 传 ， 搜 索引 擎 就 会 将 其 压缩 为 很 小 的 向 量 ， 并 将 该 向 量 与 其 索引 中 的 所 有 其 他 对 象 进 
行 比 较 。 搜 索 查 询 将 返回 包含 相似 数字 的 向 量 并 将 其 转换 为 映射 图 像 。 



























































































































































































































































6.6 小结 


本 章 讨 论 了 自动 编码 器 , 它 是 最 受 欢 迎 和 广泛 应 用 的 生成 模型 之 一 。 自 动 编码 器 基本 上 有 两 
个 阶段 : 一 个 是 编码 器 阶段 , 另 一 个 是 解码 器 阶段 。 本 章 通过 适当 的 数学 解释 阐述 了 这 两 个 阶段 。 
接着 介绍 了 一 种 特殊 的 自动 编码 需 一 - 稀 玻 自动 编码 器 。 通 过 解释 深度 自动 编码 需 , 还 探讨 了 自 
动 编码 器 如 何 应 用 在 深度 神经 网 络 中 。 深度 自动 编码 器 由 多 层 受 限 玻 尔 效 曼 机 组 成 ,后 者 参与 了 
网 络 的 编码 器 和 解码 器 阶段 。 我 们 曾 释 了 如 何 使 用 Deeplearming4j 将 输入 数据 集 的 块 加 载 到 HDFS 
中 ,来 部 署 深度 自动 编码 器 。 随 后 介绍 了 最 流行 的 自动 编码 髓 形式 ， 即 降 品 自动 编码 器 ， 及 其 深 
度 网 络 版 本 一 一 堆 受 式 降 噪 自动 编码 器 。 此 外 还 展示 了 如 何 使 用 Deeplearning4j Sc EYE rt EMR 
自动 编码 器 。 最 后 概述 了 自动 编码 器 的 常见 应 用 。 


下 一 章 将 借助 Hadoop 讨论 深度 学 习 的 一 些 常 见 应 用 。 
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“蛮荒 时 期 的 人 们 用 公牛 拉动 重 物 ， 当 公牛 拉 不 动 时 ， 他 们 不 会 尝试 培育 更 大 的 公 
牛 。 我 们 也 不 应 该 尝试 使 用 更 强 的 计算 机 ， 而 应 该 使 用 更 多 的 计算 机 系统 。 
Grace Hopper 


到 目前 为 止 ， 本 书 讨论 了 各 种 深度 神经 网 络 模型 及 其 在 分 布 式 环境 中 的 概念 、 应 用 和 实现 ， 
还 解释 了 集中 式 计算 机 难以 使 用 这 些 模 型 存储 和 处 理 大 量 数据 , 并 从 中 提取 信息 的 原因 。Hadoop 
已 经 用 于 克服 大 数据 带 来 的 各 种 限制 。 


现在 已 经 来 到 本 书 的 最 后 一 章 , 我 们 将 主要 讨论 三 种 最 常见 的 机 器 学 习 应 用 的 设计 。 我 们 将 
使 用 Hadoop 框架 来 解释 大 规模 视频 处 理 、 大 规模 图 像 处 理 和 自然 语言 处 理 的 常用 概念 。 


本 章 的 主要 内 容 如 下 : 


口 使 用 Hadoop 进行 大 规模 分 布 式 视频 处 理 
口 使 用 Hadoop 进行 大 规模 图 像 处理 
口 使 用 Hadoop 进行 自然 语言 处 理 


数字 世界 中 的 大 量 视频 在 如 今生 成 的 大 数据 中 占 最 大 比重 。 第 2 章 中 讨论 了 数 百 万 个 视频 被 
上 传 到 各 种 社交 媒体 网 站 ， 如 YouTube 和 Facebook。 除 此 之 外 ， 出 于 安全 目的 而 安装 在 各 商场 、 
机 场 或 政府 机 构 中 的 监控 摄像 头 每 天 都 会 产生 大 量 视频 。 因 为 大 多 数 视频 会 消耗 巨大 的 存储 空 
间 ,， 所 以 它们 通常 会 被 压缩 存储 。 在 大 多 数 企业 中 ,监控 摄像 头 全 天 候 运 行 并 存储 重要 视频 ， 以 
备 将 来 调查 之 用 。 


这 些 视频 包含 需要 进行 快速 处 理 和 提取 的 潜在 “热点 数据 ”或 信息 。 因 此 ,处理 和 分 析 这 些 
大 规模 视频 已 经 成 为 数据 爱好 者 优先 考虑 的 事情 之 一 。 此 外 , 许多 不 同 的 研究 领域 ( 如 生物 医学 
工程 、 地 质 学 和 教育 研究 领域 ) 都 需要 处 理 大 规模 视频 ， 使 其 可 在 不 同 的 位 置 进行 详细 分 析 。 


本 章 将 研究 如 何 使 用 Hadoop 框架 处 理 大 规模 视频 数据 集 。 大 规模 视频 处 理 的 主要 挑战 是 将 
视频 从 压缩 格式 转 为 非 压缩 格式 。 为 此 ， 我 们 需要 一 个 分 布 式 视频 转 码 器 ， 它 会 将 视频 写 人 
HDFS， 并 行 解 码 比特 流 块 ， 并 生成 一 个 序列 文件 。 
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当 在 HDFS 中 处 理 一 个 输入 数据 块 时 ， 每 个 mapper 进程 分 别处 理 每 一 批 数 据 。 然 而 ， 当 大 
规模 视频 数据 集 被 分 割 成 多 个 预定 义 大 小 的 块 时 ， 每 个 mapper 进程 应 该 分 别处 理 比 特 流 的 每 个 
块 。 为 了 对 数据 进行 后 续 分 析 ，mapper 进程 将 支持 对 解码 后 的 视频 帧 的 访问 。 接 下 来 将 讨论 如 
何 将 包含 视频 比特 流 的 HDFS 的 每 个 块 ， 转 换 成 要 处 理 的 图 像 集 ， 以 用 于 进一步 的 分 析 。 























7.1 Hadoop 中 的 分 布 式 视频 解码 


大 多 数 流行 的 视频 压缩 格式 (如 MPEG-2 和 MPEG-4 ) 都 遵循 比特 流 中 的 分 层 结构 。 本 节 假 
设 视 频 所 使 用 的 压缩 格式 具有 比特 流 的 分 层 结构 。 出 于 简洁 的 目的 , 我 们 将 解码 任务 分 成 两 个 不 
同 的 Map-Reduce 作业 。 


(1) 提取 视频 序列 级 别 信息 : 从 一 开始 ， 很 容易 预测 ， 所 有 视频 数据 集 的 标题 信息 可 以 在 数 
据 集 的 第 一 个 块 中 找到 。 在 这 个 阶段 中 ，Map-Reduce 作业 的 目的 是 从 视频 数据 集 的 第 一 个 数据 
块 中 收集 序列 级 别 信息 , 并 将 结果 存 为 HDFS 中 的 一 个 文本 文件 。 设 置 解码 器 对 象 的 格式 时 需要 
这 些 序列 标题 信息 。 


对 于 视频 文件 ， 应 该 使 用 它 自 己 的 记录 读 取 器 来 实现 一 个 新 的 FileInputFormat。 接 着 ， 
每 个 记录 读 取 器 将 以 这 种 格式 提供 一 个 <key，value> 对 给 每 个 map 进程 : <Longwritable, 
BytesWritable>。 输入 的 key 表示 文件 内 的 字 节 偏 移 量 ; 与 Byteswritable 对 应 的 值 是 一 个 
字 节 数组 ， 包 含 了 整个 数据 块 的 视频 比特 流 。 


对 于 每 个 map 进程 ， 将 键 值 与 0 进行 比较 ， 以 识别 它 是 否 是 视频 文件 的 第 一 个 块 。 一 旦 识别 
出 第 一 个 块 , 则 可 根据 其 比特 流 来 确定 序列 级 别 信息 。 然后 将 该 信息 转 储 为 .txt 文件 并 写 入 HDFS。 
我 们 将 .txt 文件 的 名 称 指定 为 input_ filename sequence level header_information.txt. 因为 仅 有 map 
进程 就 可 以 提供 所 需要 的 输出 ， 所 以 该 方法 的 reducer 个 数 设置 为 0。 




































































假设 文本 文件 具有 以 下 数据 : 
Deep Learning 


with Hadoop 

D 现在 第 一 行 的 偏 移 量 为 0，Hadoop 作业 的 输入 将 为 <0，Deep Learning>, A 
第 二 行 的 偏 移 量 将 为 <14，with Hadoop>. 
每 当 文本 文件 传递 给 Hadoop 作业 时 ， 它 都 会 在 内 部 计算 字 节 偏 移 量 。 

(2) 解码 并 将 视频 块 转换 为 序列 文件 : Map-Reduce 作业 的 目的 是 对 视频 数据 集 的 每 个 块 进 行 
解码 ， 并 生成 相应 的 序列 文件 。 序 列 文件 将 包含 JPEG 格式 的 每 个 数据 块 的 解码 视频 帧 。 
InputFileFormat 文件 和 记录 读 取 器 应 与 第 一 个 Map-Reduce 作业 保持 一 致 。 因 此 ， mapper 输 
人 的 <-key，value> 对 是 <LongWritable, BytesWritable>。 


























7.1 Hadoop 中 的 分 布 式 视频 解码 115 








sample.m2v, sample.m2v_sequence_level_header_information.txt 






<128MB, bytes> 


<64MB, bytes> A 
| wer | | Map s... 
a m2v_1, bytes> <sample_m2v_blockID, bytes> 


<sample_m2v_0, bytes> aT m2v_2, bytes> 


排序 与 混 洗 





<OMB, bytes> <offset, bytes> 










<sample_m2v_0, bytes> <sample_m2v_2, bytes> ~<sample_m2v_blockID, bytes> 


<sample_m2v_1, bytes> \ 
4 
| Reduce | | Reduce | | Reduce | nae Reduce 


Sequence file 1 Sequence file 2 Sequence_file_blockID 


(包含 图 像 的 文件 ) (包含 图 像 的 文件 ) (包含 图 像 的 文件 ) 


























Sequence_file_O 
(包含 图 像 的 文件 ) 






























































图 7-1 Hadoop 视频 解码 的 整个 流程 


Q o 第 一 个 作业 的 输出 视 为 第 二 个 Map-Reduce 作业 的 输入 。 因 此 ， 该 作业 的 
每 个 mapper 将 读 取 HDFS 中 的 序列 信息 文件 ， 并 将 该 信息 与 作为 Byteswritable 输入 
的 比特 流 缓冲 区 数据 一 起 传递 。 

O map 进程 可 将 解码 后 的 视频 帧 转换 为 JPEG 图 像 ， 并 生成 一 个 <key，value> 对 作为 map 
进程 的 输出 ,map 进程 这 个 输出 的 键 将 输入 视频 文件 名 和 块 序号 编码 为 video_filenam 
block_number。 与 此 键 对 应 的 输出 值 为 Byteswritable， 它 用 于 存储 解码 视频 块 的 
JPEG 比特 流 。 

O 接着 reducer 将 数据 块 作为 输入 ， 并 将 解码 后 的 帧 写 人 包含 JPEG 图 像 的 序列 文件 中 ， 以 
便 进一步 处 理 。 图 7-1 概述 了 整个 过 程 。 我 们 使 用 了 输入 视频 sample.m2v 来 进行 说 明 。 
此 外 ， 本 章 还 将 讨论 如 何 使 用 HDFS 处 理 大 型 图 像 文件 (序列 文件 )。 



































mapper 输入 的 <key， Value>: <LongWritable, BytesWritable> 
ri) 例如 : <17308965, BytesWritable> 
mapper 输出 的 <key，value>: <Text, BytesWritable> 


例如 : <sample.m2v_3, BytesWritable> 
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7.2 使 用 Hadoop 进行 大 规模 图 像 处 理 


前 儿童 已 经 提 到 了 图 像 的 大 小 和 数量 在 日 益 增长 ; 集中 式 计 算 机 难以 满足 存储 和 处 理 大 量 图 
像 的 需求 。 我 们 通过 一 个 示例 来 说 明 这 种 情况 。 假 设 有 一 个 尺寸 为 81 025 像素 x86 273 像素 的 大 
型 图 像 。 每 个 像素 由 三 个 值 组 成 : 红色 、 绿 色 和 蓝 色 。 为 了 存储 每 一 个 值 ， 需 要 一 个 32 位 精度 
浮 点 数 。 因 此 ， 该 图 像 的 总 内 存 消耗 如 下 所 示 : 


86273x81025x3x32 比特 = 78.12 GB 


且 不 考虑 对 这 幅 图 像 进 行 任何 处 理 , 显然 , 传统 计算 机 甚至 连 将 这 些 数据 存储 到 内 存 中 都 做 
不 到 。 虽然 一 些 先 进 的 计算 机 具有 更 高 的 配置 , 但 鉴于 投资 回报 率 ， 大 多 数 公司 并 不 会 选择 这 些 
昂贵 且 维 护 成 本 较 高 的 计算 机 。 因 此 , 正确 的 解决 方案 应 该 是 在 商用 硬件 上 运行 这 些 图 像 ， 以 便 
将 图 像 存储 在 其 内 存 中 。 本 节 将 解释 如 何 使 用 Hadoop 以 分 布 式 方式 处 理 大 量 图 像 。 


Map-Reduce 作业 的 应 用 


本 节 将 讨论 如 何 使 用 Hadoop 的 Map-Reduce 作业 处 理 大 型 图 像 文 件 。 开 始 作 业 前 ， 将 需要 
处 理 的 所 有 输入 图 像 都 加 载 到 HDFS。 在 计算 期 间 ， 客 户 端 向 NameNode 发 送 一 个 作业 请 求 。 
NameNode 从 客户 端 收集 该 请 求 ， 并 搜索 其 元 数据 映射 ， 然 后 将 文件 系统 的 数据 块 信息 以 及 数据 
块 的 位 置 发 回 客户 端 。 一 旦 获取 块 的 元 数据 ， 客 户 端 将 自动 访问 所 请 求 数据 块 所 在 的 DataNode， 
然后 通过 合适 的 命令 处 理 此 数据 。 


用 于 大 规模 图 像 处 理 的 Map-Reduce 作业 主要 负责 控制 整个 任务 。 这 里 我 们 将 解释 可 执行 
shell 脚本 文件 的 概念 ， 该 文件 负责 从 HDFS 中 收集 可 执行 文件 的 输入 数据 。 


使 用 Map-Reduce 编程 模型 的 最 佳 方式 是 设计 自己 的 Hadoop 数据 类 型 ， 以 便 直 接 处 理 大 量 
图 像 文件 。 该 系统 将 使 用 Hadoop Streaming 技术 ， 帮 助 用 户 创建 和 运行 特殊 类 型 的 Map-Reduce 
作业 。 这 些 特殊 类 型 的 作业 可 以 通过 前 面 提 到 的 可 执行 文件 来 执行 ， 该 文件 可 视 作 mapper 或 
reducer。 该 程序 的 mapper 实现 将 使 用 一 个 shell 脚本 来 执行 必要 的 操作 。shell 脚本 负责 调用 图 像 
处 理 的 可 执行 文件 。 将 图 像 文件 的 列表 作为 这 些 可 执行 文件 的 输入 ， 以 便 进 行进 一 步 处 理 。 处 理 
或 输出 的 结果 将 写 回 HDFS。 


因此 ， 输 入 的 图 像 文件 应 该 先 写 人 HDFS ， 然 后 在 Hadoop Streaming 输入 的 特定 目录 中 生成 
文件 列表 。 该 目录 将 存储 文件 列表 的 集合 。 文 件 列表 的 每 一 行 包 含 将 要 处 理 的 图 像 文件 的 HDFS 
地 址 。mapper 的 输入 将 是 一 个 Inputsplit 类 ， 它 是 一 个 文本 文件 。shell 脚本 管理 器 逐 行 读 取 
文件 ， 并 从 元 数据 中 检索 图 像 ， 接 着 调用 图 像 处 理 可 执行 文件 进一步 处 理 图 像 ， 并 将 结果 写 回 
HDFS。 因 此 ，mapper 的 输出 是 最 终 的 期 望 结果 。 因 此 ，mapper 执行 所 有 作业 : 从 HDFS 检索 图 
像 文件 并 进行 处 理 ， 接 着 将 其 写 回 HDFS。 此 过 程 中 的 reducer 数 可 以 设置 为 0。 


通过 二 进 制图 像 处 理 方法 ,使 用 Hadoop 来 处 理 大 量 的 图 像 是 比较 简单 的 。 还 可 以 部 署 其 他 
复杂 的 图 像 处 理 方法 来 处 理 大 规模 图 像 数 据 集 。 
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7.3 使 用 Hadoop 进行 自然 语言 处 理 


网 络 信息 的 指数 级 增长 加 大 了 大 规模 非 结 构 化 自然 语言 文本 资源 的 扩散 强度 。 因 此 , 在 过 去 
几 年 中 ,人们 对 提取 、 处 理 和 分 享 这 些 信 息 的 兴趣 大 大 增加 。 在 一 定时 间 内 处 理 各 种 来 源 的 知识 
已 经 成 为 各 种 研究 和 商业 行业 的 一 大 挑战 。 本 节 将 描述 怜 取 Web 文档 、 发 现 信息 并 使 用 Hadoop 
以 分 布 式 方式 进行 自然 语言 处 理 的 过 程 。 


为 了 设计 自然 语言 处 理 ( natural language processing, NLP ) 的 架构 ,需要 执行 的 第 一 个 任务 
是 从 大 规模 非 结 构 化 数据 中 提取 注释 的 关键 词 和 关键 短语 。 为 了 在 分 布 式 架构 上 执行 自然 语言 处 
理 ， 可 以 选择 Apache Hadoop 框架 来 实现 高 效 的 、 可 扩展 的 解决 方案 ， 并 改进 故障 处 理 和 确保 数 
据 完整 性 。 设 置 一 个 大 型 Web ERMA Web 中 提取 所 有 非 结 构 化 数据 ， 并 将 其 写 人 HDFS， 以 做 
进一步 处 理 。 可 以 使 用 开源 的 GATE 应 用 来 执行 特定 的 自然 语言 处 理 任务 ， 如 参考 文献 [136] 所 
示 。 分 布 式 自然 语言 处 理 架 构 的 初步 设计 如 图 7-2 所 示 。 
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图 7-2 图 中 显示 了 下 一 阶段 将 要 候 取 内 容 , 以 及 如 何在 Hadoop 中 进行 自然 语言 处 理 。 
下 一 个 阶段 是 获取 URL 的 页 面 内 容 并 保存 在 磁盘 中 。 该 操作 将 分 段 完成 , 每 一 
段 都 将 包含 一 些 预 定义 数量 的 URL, 该 操作 将 在 不 同 的 DataNode 上 并 行 运行 。 
该 阶段 的 最 终结 果 存储 在 HDFS 中 。 在 下 一 阶段 中 ， 关 键 词 提 取 器 将 在 这 些 保 
存 的 页 面 内 容 上 工作 
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在 多 个 节点 间 运 行 的 Map-Reduce 可 用 于 分 发 Web JER M TE. TAY, 也 可 以 使 用 
Map-Reduce 执行 自然 语言 处 理 任务 和 输出 最 终结 果 。 整 个 架构 将 取决 于 两 个 输入 文件 ， 疏 取 存 
储 在 seed_urls.txt 文件 中 的 特定 网 页 的 seedurls; 自然 语言 处 理应 用 的 路 径 位 置 ( 如 安装 GATE 
的 位 置 )。Web 疏 虫 将 从 .txt 文件 中 获取 seequrls， 且 并 行 地 运行 疏 虫 。 提 取 插 件 在 疏 取 的 网 页 
上 异步 地 搜索 关键 词 和 关键 短语 ,并 与 候 取 的 网 页 独立 执行 。 最后， 专用 程序 根据 要 求 将 提取 的 
关键 词 和 关键 短语 存储 在 外 部 SQL 数据 库 或 NoSQL 数据 库 ( 如 Elasticsearch ) 中 。 以 下 小 节 描 
述 了 架构 中 提 到 的 所 有 这 些 模块 。 
































7.3.1 Web ES 


因为 Web EREHE ASS PRT ASS, PLAST AN SX EF TR AMEE. Web ERA JLA 
不 同 的 阶段 。 第 一 阶段 是 URL 发 现 阶 段 ， 进 程 将 每 个 种 子 URL 作为 seed_urls.txt 文件 的 输入 ， 
并 通过 分 页 URL 导航 来 发 现 相 关 的 URL。 该 阶段 定义 了 下 一 阶段 需要 获取 的 一 组 URL. 

下 一 个 阶段 是 获取 URL 的 页 面 内 容 并 保存 在 磁盘 中 。 这 些 操 作 将 分 段 完成 ， 每 一 段 都 将 包 
含 预定 义 数 量 的 URL。 该 操作 将 在 不 同 的 DataNode 上 并 行 地 运行 。 该 阶段 的 最 终结 果 存 储 在 
HDFS 中 。 在 下 一 阶段 中 ， 关 键 词 提取 器 将 在 这 些 保存 的 页 面 内 容 上 工作 。 











7.3.2 自然 语言 处 理 的 关键 词 提取 和 模块 


针对 每 个 URL 的 页 面 内 容 ， 都 会 创建 一 个 文档 对 象 模型 (Document Object Model, DOM ) 

并 存储 在 HDFS 中 。 在 DOM 中 ,文档 具有 树 型 的 逻辑 结构 。 可 以 基于 DOM 编写 xpath, UE 
自然 语言 处 理 阶段 收集 必需 的 关键 词 和 短语 。 在 这 个 模块 中 ， 定 义 Map-Reduce 作业 来 执行 下 一 
阶段 的 自然 语言 处 理应 用 程序 。map 函数 <key,，value> 对 的 键 是 URL, 值 是 URL 相应 的 DOM. 
reduce 函数 将 执行 自然 语言 处 理 的 配置 和 执行 .从 Web 域 级 别提 取 的 关键 词 和 短语 在 reduce Fr 
法 中 进行 后 续 估 计 。 为 此 , 我 们 可 以 编写 一 个 自 定义 插件 来 生成 规则 文件 ， 以 执行 各 种 字符 串 操 
作 ， 并 过 滤 掉 提取 的 文本 中 不 需要 的 噪声 字 词 。 根 据 用 例 ， 规 则 文件 可 以 是 JSON 文件 或 任何 其 
他 易于 加 载 和 解释 的 文件 。 最 好 是 从 文本 中 将 常用 名 词 和 形容 词 标识 为 常用 关键 词 。 









































7.3.3 ”从 页 面 评 估 相 关 关 键 词 


一 篇 论文 ”提出 了 一 种 从 Web 文档 中 找到 相关 关键 词 和 关键 短语 的 重要 方法 。 他 们 提出 了 
词 频 率 - 逆 文档 频率 (Term Frequency-Inverse Document Frequency, TF-IDF ) 度量 ， 以 评估 来 自 
整个 语料库 的 相关 信息 , 该 语料库 由 属于 单个 Web 域 的 所 有 文档 和 页 面 组 成 。 计 算 TF-IDF 的 值 ， 
并 为 其 设置 一 个 阔 值 以 丢弃 其 他 关键 词 , 这 种 方法 能 够 从 语料库 中 生成 最 相关 的 单词 。 换 名 话说， 
它 丢 弃 在 文本 中 出 现 频 率 可 能 很 高 ， 但 通常 不 具有 任何 意义 的 冠 词 和 连词 。TF-IDF 度量 基本 上 
是 TF Ail IDF 这 两 个 函数 的 乘积 。 
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TF 计算 语料库 中 每 个 单词 的 频率 ， 即 该 单词 在 语料库 中 出 现 了 多 少 次 。 而 IDF 为 平衡 项 ， 
针对 在 整个 语料库 中 出 现 频率 较 低 的 词 ， 显 示 较 高 的 值 。 

从 数学 上 来 说 , 文档 d ( 属于 文档 集合 D ) 中 的 关键 词 或 关键 短语 i 的 TF-IDF 度量 由 以 下 等 
式 给 出 : 




















(TF-IDF) = TF. IDF, 


i 


其 中 TF = f/n,, IDF =log N,/N, o 


i 


这 里 是 候选 关键 词 或 关键 短语 i 在 文档 d 中 的 出 现 频率 , ny 是 文档 4 中 的 词语 总 数 。 在 IDF 
中 ，Nbp 表 示 语 料 库 D 中 的 文档 总 数 ， 而 ;表示 存 在 关键 词 或 关键 短语 i 的 文档 的 数量 。 


我 们 应 该 基于 用 例 来 定义 TF-IDF 的 通用 频率 阔 值 。 对 于 关键 词 或 关键 短语 来 说 ， 如 果 
TF-IDF 的 值 高 于 阔 值 ， 则 该 关键 词 或 关键 短语 将 作为 直接 写 和 人 HDFS 的 最 终 字 符 。 另 一 方面 ， 
如 果 TF-IDF 的 值 小 于 阔 值 ， 则 将 该 关键 词 从 最 终 集 合 中 删除 。 通 过 这 种 方式 ， 所 有 期 望 的 关键 
词 最 终 都 将 写 人 HDFS。 












































7.4 小 结 


本 章 讨 论 了 最 常见 的 机 器 学 习 应 用 ， 以 及 如 何 利 用 Hadoop 框架 实现 它们 。 首 先 ， 通 过 一 个 
大 型 视频 集 ， 展 示 了 如 何在 HDFS 中 解码 视频 ， 然 后 转换 成 包含 图 像 的 序列 文件 以 供 后 续 处 理 。 
接着 讨论 了 大 规模 图 像 处 理 。 用 于 此 目的 的 mapper 有 一 个 shell 脚本 , 可 以 执行 所 有 必需 的 任务 。 
因此 ， 执 行 此 操作 不 需要 reducer。 最 后 讨论 了 如 何在 Hadoop 中 部 署 自 然 语言 处 理 模 型 。 
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